跳转至

Multimodal Lakehouse Handbook

一季度资深路径

wangyong9999/lakehouse-wiki

一季度资深路径¶

Tutorial · 手把手

目标

季度结束时，你应该能独立设计一个端到端的一体化湖仓方案，并能有理有据解释每一步为什么选 X 不选 Y。你看本手册时不再是"学"，而是"给它补"。

前置¶

完成一周新人路径
完成一月 AI 或一月 BI 至少一条

Month 1 · 存算与 Catalog 深入¶

Week 1-2 · 存算底座¶

存算分离
一致性模型
谓词下推
向量化执行
Lance Format —— 深度读
做：用 DuckDB 直连 S3 + Iceberg 跑 TPC-DS 10GB，看下推生效情况

Week 3-4 · Catalog 治理平面¶

全部 Catalog 系统页 + Catalog 全景对比
统一 Catalog 策略
安全与权限
数据治理
ADR-0004 Catalog 选型
做：本地起 Polaris（或 Nessie）+ Spark + Trino，走一遍"注册表 → 查询 → 权限"

Month 2 · 一体化架构 + 多模管线¶

Week 5-6 · 一体化¶

Lake + Vector 融合架构
跨模态查询
Compute Pushdown
案例拆解
多模数据建模
做：设计一张 multimodal_assets 表 schema（图+文+音），画出端到端架构图，写成 ADR 草稿

Week 7-8 · 多模管线实操¶

图像管线
视频管线
音频管线
文档管线
Embedding 流水线
做：挑一种模态（如图像），端到端搭一条"原始 → embedding → 入湖 → 跨模态查询"

Month 3 · ML 基础设施 + 生产化¶

Week 9-10 · ML Infra¶

推荐顺序（先叙事总览 · 再数据底座 · 再训练 · 最后部署运维）：

MLOps 生命周期 —— 建立六环节全局
Feature Store —— 数据底座（PIT / 训推一致）
训练编排 —— FSDP2 / torchtitan / DCP
Model Registry —— alias API / Model Card / 合规
Model Serving —— Inference Graph / Shadow / Canary / Rollback
Model Monitoring —— Drift / Auto-retrain 契约
GPU 调度 —— 资源 + FinOps
LLM Fine-tuning —— LoRA / QLoRA / DPO 一体（LLM 应用方向必读）
做：把 Week 7-8 的 embedding 模型注册到 MLflow（alias champion）+ 用 Ray Serve 部署 + 配一条 drift 告警

Week 11-12 · 生产化¶

可观测性
性能调优
成本优化
故障排查手册
迁移手册
做：为你 Month 2 搭的多模方案写一套监控 + 成本预算 + 容量规划

毕业成果¶

交付物¶

一份完整架构设计（图 + 表 + 权衡说明）
至少 2 条新 ADR 贡献到本手册
至少 1 篇 paper note 融入对应机制章的 §前沿进展节
在本手册新增或深挖一个概念 / 系统 / 对比 / 场景页
做一次内部分享（1 小时），讲"我设计的一体化湖仓方案"

自测（能回答）¶

给你一个多模 AI 新场景，你能 1 小时画出合理架构
面对一个"BI + AI" 需求，你能说清什么时候选 Iceberg / Paimon / LanceDB / Milvus
能独立 debug 一个"查询突然慢了 10 倍"的问题
知道 GDPR 删除要求下，湖 + 向量 + 模型都要删什么
能评估一个新 OSS 项目值不值得引入（从架构契合度到运维成本）

下一步¶

写一条 ADR 推动团队技术选型
审团队 PR（从消费者变成供应者）
关注至少 2 个上游项目的社区讨论（Iceberg / Paimon / LanceDB / Milvus）