ML / AI 工程师 · 优先阅读清单¶
Reference · 速查
你的主战场:在湖上做检索、训练、RAG、Agent、多模。
不必深入(交给其他角色)
你是哪种 ML / AI 工程师
本页覆盖两类工作,入口不同:
- A · LLM / 检索 / Agent 方向(以下称 AI 工程):做 RAG、向量检索、Agent、多模搜索。主线:向量库 + Embedding + RAG + Agent。
- B · Classical ML 方向(以下称 数据科学 / ML 建模):做 GBDT / 深度学习 / 推荐召排 / 欺诈检测。主线:Feature Store + 离线训练 + 在线服务。
两类有大量共享基础(湖表 / Feature Store / Model Serving),但检索 / LLM 相关的内容 A 重 B 轻,特征工程 / 训练编排 / 评估则 B 重 A 轻。下面按 A 的主线排,B 方向的重点用"📊 Classical ML 重点"标签。
高频任务速跳
- 搭 RAG MVP → RAG · 60 分钟 RAG on Iceberg tutorial · RAG on Lake 场景
- 选向量库 → 向量数据库对比 · ADR-0003 选 LanceDB
- 检索质量评估 → 检索评估 · RAG 评估
- 多模流水线 → 多模检索流水线 · 文档管线 · 图像管线
- Feature Store / 离线训练 📊 → Feature Store · Feature Store 横比 · 离线训练数据流水线
入门 · 先理解"湖 + 向量"¶
检索核心¶
AI 负载¶
- RAG
- RAG 评估
- Prompt 管理
- Agents on Lakehouse
- Semantic Cache
- Feature Store 📊 Classical ML 重点 —— 离线 / 在线一致的特征中台
- Embedding 流水线
- 微调数据准备 📊 Classical ML 也可借鉴(数据质量)
Classical ML · 数据科学方向补充 📊¶
如果你做 GBDT / 深度学习 / 推荐 / 风控,下面这条线更关键:
- Feature Store —— PIT Join · Train-Serve Skew · Online-Offline 一致
- 离线训练数据流水线 —— 可复现 · 点时间正确的训练集生成
- Feature Serving —— 毫秒级特征在线拉取
- 推荐系统 · 搜索 · 发现 —— 四阶段流水线(召回 → 粗排 → 精排 → 重排)
- 欺诈检测 —— 四层拦截 · 样本不平衡 · 标签延迟
- Classical ML 场景 —— 综述
- MLOps 生命周期 —— 数据 → 训练 → 评估 → 上线 → 监控
ML 基础设施¶
多模管线(团队主线)¶
场景¶
建议学习路径¶
先走 一周新人路径(湖 + 检索心智模型),再走 一月 AI 方向,之后按 "多模管线 → ML 基础设施 → Agent" 推进。
一月 AI 方向 覆盖:Embedding 与多模 · 向量检索三大索引(HNSW / IVF-PQ / DiskANN) · Hybrid Search + Rerank · RAG 原理与评估 · Feature Store · MLOps 生命周期 · Agent 基础。
常用参考¶
- ANN 索引对比 §决策速查 · 规模 + 预算 → 索引选择
- 向量数据库 §7 多引擎 SQL · pgvector / Milvus / Qdrant 等语法
- Embedding §3 一分钟速选 · 按场景快速选型
- HNSW §场景典型配方 · M / ef 参数