一季度资深路径¶
Tutorial · 手把手
目标
季度结束时,你应该能独立设计一个端到端的一体化湖仓方案,并能有理有据解释每一步为什么选 X 不选 Y。你看本手册时不再是"学",而是"给它补"。
前置¶
Month 1 · 存算与 Catalog 深入¶
Week 1-2 · 存算底座¶
- 存算分离
- 一致性模型
- 谓词下推
- 向量化执行
- Lance Format —— 深度读
- 做:用 DuckDB 直连 S3 + Iceberg 跑 TPC-DS 10GB,看下推生效情况
Week 3-4 · Catalog 治理平面¶
- 全部 Catalog 系统页 + Catalog 全景对比
- 统一 Catalog 策略
- 安全与权限
- 数据治理
- ADR-0004 Catalog 选型
- 做:本地起 Polaris(或 Nessie)+ Spark + Trino,走一遍"注册表 → 查询 → 权限"
Month 2 · 一体化架构 + 多模管线¶
Week 5-6 · 一体化¶
- Lake + Vector 融合架构
- 跨模态查询
- Compute Pushdown
- 案例拆解
- 多模数据建模
- 做:设计一张
multimodal_assets表 schema(图+文+音),画出端到端架构图,写成 ADR 草稿
Week 7-8 · 多模管线实操¶
- 图像管线
- 视频管线
- 音频管线
- 文档管线
- Embedding 流水线
- 做:挑一种模态(如图像),端到端搭一条"原始 → embedding → 入湖 → 跨模态查询"
Month 3 · ML 基础设施 + 生产化¶
Week 9-10 · ML Infra¶
推荐顺序(先叙事总览 · 再数据底座 · 再训练 · 最后部署运维):
- MLOps 生命周期 —— 建立六环节全局
- Feature Store —— 数据底座(PIT / 训推一致)
- 训练编排 —— FSDP2 / torchtitan / DCP
- Model Registry —— alias API / Model Card / 合规
- Model Serving —— Inference Graph / Shadow / Canary / Rollback
- Model Monitoring —— Drift / Auto-retrain 契约
- GPU 调度 —— 资源 + FinOps
-
LLM Fine-tuning —— LoRA / QLoRA / DPO 一体(LLM 应用方向必读)
-
做:把 Week 7-8 的 embedding 模型注册到 MLflow(alias champion)+ 用 Ray Serve 部署 + 配一条 drift 告警
Week 11-12 · 生产化¶
毕业成果¶
交付物¶
- 一份完整架构设计(图 + 表 + 权衡说明)
- 至少 2 条新 ADR 贡献到本手册
- 至少 1 篇 paper note 融入对应机制章的 §前沿进展 节
- 在本手册新增或深挖一个概念 / 系统 / 对比 / 场景页
- 做一次内部分享(1 小时),讲"我设计的一体化湖仓方案"
自测(能回答)¶
- 给你一个多模 AI 新场景,你能 1 小时画出合理架构
- 面对一个"BI + AI" 需求,你能说清什么时候选 Iceberg / Paimon / LanceDB / Milvus
- 能独立 debug 一个"查询突然慢了 10 倍"的问题
- 知道 GDPR 删除要求下,湖 + 向量 + 模型都要删什么
- 能评估一个新 OSS 项目值不值得引入(从架构契合度到运维成本)
下一步¶
- 写一条 ADR 推动团队技术选型
- 审团队 PR(从消费者变成供应者)
- 关注至少 2 个上游项目的社区讨论(Iceberg / Paimon / LanceDB / Milvus)