跳转至

一季度资深路径

Tutorial · 手把手

目标

季度结束时,你应该能独立设计一个端到端的一体化湖仓方案,并能有理有据解释每一步为什么选 X 不选 Y。你看本手册时不再是"学",而是"给它补"。

前置

Month 1 · 存算与 Catalog 深入

Week 1-2 · 存算底座

Week 3-4 · Catalog 治理平面

Month 2 · 一体化架构 + 多模管线

Week 5-6 · 一体化

Week 7-8 · 多模管线实操

Month 3 · ML 基础设施 + 生产化

Week 9-10 · ML Infra

推荐顺序(先叙事总览 · 再数据底座 · 再训练 · 最后部署运维):

  1. MLOps 生命周期 —— 建立六环节全局
  2. Feature Store —— 数据底座(PIT / 训推一致)
  3. 训练编排 —— FSDP2 / torchtitan / DCP
  4. Model Registry —— alias API / Model Card / 合规
  5. Model Serving —— Inference Graph / Shadow / Canary / Rollback
  6. Model Monitoring —— Drift / Auto-retrain 契约
  7. GPU 调度 —— 资源 + FinOps
  8. LLM Fine-tuning —— LoRA / QLoRA / DPO 一体(LLM 应用方向必读)

  9. 做:把 Week 7-8 的 embedding 模型注册到 MLflow(alias champion)+ 用 Ray Serve 部署 + 配一条 drift 告警

Week 11-12 · 生产化

毕业成果

交付物

  • 一份完整架构设计(图 + 表 + 权衡说明)
  • 至少 2 条新 ADR 贡献到本手册
  • 至少 1 篇 paper note 融入对应机制章的 §前沿进展 节
  • 在本手册新增或深挖一个概念 / 系统 / 对比 / 场景页
  • 做一次内部分享(1 小时),讲"我设计的一体化湖仓方案"

自测(能回答)

  • 给你一个多模 AI 新场景,你能 1 小时画出合理架构
  • 面对一个"BI + AI" 需求,你能说清什么时候选 Iceberg / Paimon / LanceDB / Milvus
  • 能独立 debug 一个"查询突然慢了 10 倍"的问题
  • 知道 GDPR 删除要求下,湖 + 向量 + 模型都要删什么
  • 能评估一个新 OSS 项目值不值得引入(从架构契合度到运维成本)

下一步

  • 写一条 ADR 推动团队技术选型
  • 审团队 PR(从消费者变成供应者)
  • 关注至少 2 个上游项目的社区讨论(Iceberg / Paimon / LanceDB / Milvus)