跳转至

数据工程师 · 优先阅读清单

Reference · 速查

你的主战场:湖表怎么建、数据怎么进、作业怎么稳、性能怎么调。

不必深入(交给其他角色)

高频任务速跳

入门 · 先把心智模型搭起来

进阶 · 表格式 + 演化

入湖与管线

运维必修

建议学习路径

先走 一周新人路径(湖 + 检索心智模型)。之后按下面 4-6 周节奏推进:

主题 重点页
Week 2 入湖链路:CDC / Kafka / Bulk Streaming Upsert · CDC · Kafka 到湖 · Bulk Loading · 流式入湖场景
Week 3 运维日常:Compaction / 小文件 / 删除 Compaction · Delete Files · 20 反模式
Week 4 性能与可观测 性能调优 · 可观测性 · 故障排查
Week 5-6 深入一个引擎(按负载选) Spark · Flink · Trino · DuckDB
后续 资深路径 一季度资深路径

AI / BI 方向的同事有独立 month-1 路径;数据工程角色跨度大,按"实际在处理什么"选一两周深入即可,不必线性读完。

常用参考

随时回头看