数据工程师 · 优先阅读清单¶
Reference · 速查
你的主战场:湖表怎么建、数据怎么进、作业怎么稳、性能怎么调。
不必深入(交给其他角色)
- LLM / RAG / Agent 内部机制 · 向量检索算法调优 → ML / AI 工程师
- OLAP 建模 / dbt / 语义层 → BI 分析师
- Catalog 权限设计 / 多租户 / FinOps / K8s → 平台工程师
- Model Serving / GPU 调度 → ML / AI 工程师 或 平台工程师
高频任务速跳
- 新建一张湖表 → Iceberg · 第一张 Iceberg 表 tutorial
- 小文件治理 / Compaction → Compaction · 20 反模式
- 作业跑得慢 / 定位瓶颈 → 性能调优 · 谓词下推 · 量级数字
- CDC 流入湖 → Streaming Upsert · CDC · Kafka 到湖 · 流式入湖场景
- Schema / 分区演化 → Schema Evolution · Partition Evolution
入门 · 先把心智模型搭起来¶
进阶 · 表格式 + 演化¶
入湖与管线¶
运维必修¶
建议学习路径¶
先走 一周新人路径(湖 + 检索心智模型)。之后按下面 4-6 周节奏推进:
| 周 | 主题 | 重点页 |
|---|---|---|
| Week 2 | 入湖链路:CDC / Kafka / Bulk | Streaming Upsert · CDC · Kafka 到湖 · Bulk Loading · 流式入湖场景 |
| Week 3 | 运维日常:Compaction / 小文件 / 删除 | Compaction · Delete Files · 20 反模式 |
| Week 4 | 性能与可观测 | 性能调优 · 可观测性 · 故障排查 |
| Week 5-6 | 深入一个引擎(按负载选) | Spark · Flink · Trino · DuckDB |
| 后续 | 资深路径 | 一季度资深路径 |
AI / BI 方向的同事有独立 month-1 路径;数据工程角色跨度大,按"实际在处理什么"选一两周深入即可,不必线性读完。
常用参考¶
- Apache Iceberg §6 维护与运维命令 · 建表 / 维护 / 元数据表 / Properties
- Compaction 指引
- 性能调优 · 28 反模式