跳转至

Multimodal Lakehouse Handbook

ML / AI 工程师

wangyong9999/lakehouse-wiki

ML / AI 工程师 · 优先阅读清单¶

Reference · 速查

你的主战场：在湖上做检索、训练、RAG、Agent、多模。

不必深入（交给其他角色）

Compaction / Delete Files / 入湖 CDC 运维 → 数据工程师
Catalog 权限 / 多租户 / FinOps / K8s → 平台工程师
OLAP 建模 / 物化视图 / 语义层 → BI 分析师
引擎内部算法（Spark Catalyst · Trino Planner · StarRocks 向量化细节）→ 了解定位即可，不需要深入

你是哪种 ML / AI 工程师

本页覆盖两类工作，入口不同：

A · LLM / 检索 / Agent 方向（以下称 AI 工程）：做 RAG、向量检索、Agent、多模搜索。主线：向量库 + Embedding + RAG + Agent。
B · Classical ML 方向（以下称 数据科学 / ML 建模）：做 GBDT / 深度学习 / 推荐召排 / 欺诈检测。主线：Feature Store + 离线训练 + 在线服务。

两类有大量共享基础（湖表 / Feature Store / Model Serving），但检索 / LLM 相关的内容 A 重 B 轻，特征工程 / 训练编排 / 评估则 B 重 A 轻。下面按 A 的主线排，B 方向的重点用"📊 Classical ML 重点"标签。

高频任务速跳

搭 RAG MVP → RAG · 60 分钟 RAG on Iceberg tutorial · RAG on Lake 场景
选向量库 → 向量数据库对比 · ADR-0003 选 LanceDB
检索质量评估 → 检索评估 · RAG 评估
多模流水线 → 多模检索流水线 · 文档管线 · 图像管线
Feature Store / 离线训练 📊 → Feature Store · Feature Store 横比 · 离线训练数据流水线

入门 · 先理解"湖 + 向量"¶

检索核心¶

AI 负载¶

RAG
RAG 评估
Prompt 管理
Agents on Lakehouse
Semantic Cache
Feature Store 📊 Classical ML 重点 —— 离线 / 在线一致的特征中台
Embedding 流水线
微调数据准备 📊 Classical ML 也可借鉴（数据质量）

Classical ML · 数据科学方向补充 📊¶

如果你做 GBDT / 深度学习 / 推荐 / 风控，下面这条线更关键：

Feature Store —— PIT Join · Train-Serve Skew · Online-Offline 一致
离线训练数据流水线 —— 可复现 · 点时间正确的训练集生成
Feature Serving —— 毫秒级特征在线拉取
推荐系统 · 搜索 · 发现 —— 四阶段流水线（召回 → 粗排 → 精排 → 重排）
欺诈检测 —— 四层拦截 · 样本不平衡 · 标签延迟
Classical ML 场景 —— 综述
MLOps 生命周期 —— 数据 → 训练 → 评估 → 上线 → 监控

ML 基础设施¶

多模管线（团队主线）¶

场景¶

建议学习路径¶

先走一周新人路径（湖 + 检索心智模型），再走一月 AI 方向，之后按 "多模管线 → ML 基础设施 → Agent" 推进。

一月 AI 方向 覆盖：Embedding 与多模 · 向量检索三大索引（HNSW / IVF-PQ / DiskANN） · Hybrid Search + Rerank · RAG 原理与评估 · Feature Store · MLOps 生命周期 · Agent 基础。

常用参考¶

ANN 索引对比 §决策速查 · 规模 + 预算 → 索引选择
向量数据库 §7 多引擎 SQL · pgvector / Milvus / Qdrant 等语法
Embedding §3 一分钟速选 · 按场景快速选型
HNSW §场景典型配方 · M / ef 参数

横向对比¶