跳转至

ML / AI 工程师 · 优先阅读清单

Reference · 速查

你的主战场:在湖上做检索、训练、RAG、Agent、多模。

不必深入(交给其他角色)

  • Compaction / Delete Files / 入湖 CDC 运维数据工程师
  • Catalog 权限 / 多租户 / FinOps / K8s平台工程师
  • OLAP 建模 / 物化视图 / 语义层BI 分析师
  • 引擎内部算法(Spark Catalyst · Trino Planner · StarRocks 向量化细节)→ 了解定位即可,不需要深入

你是哪种 ML / AI 工程师

本页覆盖两类工作,入口不同:

  • A · LLM / 检索 / Agent 方向(以下称 AI 工程):做 RAG、向量检索、Agent、多模搜索。主线:向量库 + Embedding + RAG + Agent。
  • B · Classical ML 方向(以下称 数据科学 / ML 建模):做 GBDT / 深度学习 / 推荐召排 / 欺诈检测。主线:Feature Store + 离线训练 + 在线服务。

两类有大量共享基础(湖表 / Feature Store / Model Serving),但检索 / LLM 相关的内容 A 重 B 轻,特征工程 / 训练编排 / 评估则 B 重 A 轻。下面按 A 的主线排,B 方向的重点用"📊 Classical ML 重点"标签。

高频任务速跳

入门 · 先理解"湖 + 向量"

检索核心

AI 负载

Classical ML · 数据科学方向补充 📊

如果你做 GBDT / 深度学习 / 推荐 / 风控,下面这条线更关键:

ML 基础设施

多模管线(团队主线)

场景

建议学习路径

先走 一周新人路径(湖 + 检索心智模型),再走 一月 AI 方向,之后按 "多模管线 → ML 基础设施 → Agent" 推进。

一月 AI 方向 覆盖:Embedding 与多模 · 向量检索三大索引(HNSW / IVF-PQ / DiskANN) · Hybrid Search + Rerank · RAG 原理与评估 · Feature Store · MLOps 生命周期 · Agent 基础。

常用参考

横向对比