平台 / 基础设施工程师 · 优先阅读清单¶
Reference · 速查
你的主战场:Catalog、治理、权限、K8s、成本、迁移、多租户。整个湖仓平台是否"长治久安"在你手里。
不必深入(交给其他角色)
- SQL 优化 / OLAP 建模 / dbt / 语义层 → BI 分析师
- 特定模型架构 / Embedding 训练 / RAG pattern → ML / AI 工程师(你只需关心它们对平台的需求:GPU / Gateway / Registry / 隔离)
- 单个引擎内部算法 / Compaction 调优细节 → 了解定位即可(什么负载选什么引擎)
你偏向哪一路
本页覆盖面广,多数团队会进一步细分:
- A · 数据治理方向:Catalog 选型 / 权限模型 / Schema 治理 / 血缘。主线:Catalog 系统 + 统一 Catalog 策略 + 数据治理 + 安全与权限
- B · 基础设施 / FinOps 方向:K8s / GPU / 多租户 / 成本。主线:多租户隔离 + GPU 调度 + 成本优化 + TCO
- C · 可靠性 / 迁移方向:SLA / 可观测 / 迁移 / DR。主线:SLA·SLO + 可观测性 + 迁移手册 + 灾难恢复
三类有大量共读(对象存储 · 存算分离 · 一致性 · Catalog 全景),差异在"时间花在规则设计" vs "容器调度" vs "运行时稳定性"。
高频任务速跳
- 接入新 Catalog → Catalog 全景对比 · Iceberg REST · Unity · Nessie
- 排查权限拒绝 → 安全与权限 · 统一 Catalog 策略
- 成本突增分析 → 成本优化 · TCO 模型
- 迁移 / 跨云 → 迁移手册 · 灾难恢复
必读:平台骨架¶
Catalog 系统¶
运维核心¶
一体化架构¶
引擎平面(知道每个的定位)¶
ML 基础设施(支撑 AI 工作负载)¶
团队决策(ADR)¶
对应场景¶
随时回头看¶
你应该产出¶
- 新 ADR(决策留痕)
- 权限模型
- 成本月报
- 容量规划文档
- SLA 定义