跳转至

运维与生产

Reference · 速查

本章组织

本章按 6 个能力组:

外部权威:docs/references/ops/(Google SRE Book · DataOps Manifesto · FinOps Foundation · NIST Privacy / GDPR / EU AI Act)。

一句话定位

把湖仓 + AI 系统稳定地跑在生产上所需要的工程能力。覆盖能见度 · 性能成本 · 安全合规 · 变更迁移 · 故障响应 · 生产准入6 能力组 · 17 页 · 从 L0 起步到 L3 卓越的完整路径。

章节分工 · 避免和 AI / ML / catalog 章节混淆

TL;DR

  • 6 能力组 · 对应生产运维的金字塔能力:能见 → 性能成本 → 安全治理 → 变更灾难 → 故障 → 准入
  • 17 页(含 3 个 S34 新建:incident-management · change-management · production-checklist)
  • 成熟度 L0-L3 · 帮团队判断当前阶段 · 决定优先投入
  • 四维导航:按能力组 / 按症状反查 / 按角色 / 按成熟度

1. 六能力组(生产运维金字塔)

组 1 · 能见度与可靠性

看清系统 + 承诺可用——没有能见就没有运维。

  • 可观测性 —— 写入 / Catalog / 查询 / 数据质量四平面 + 2024-2026 生态(OpenLineage · Elementary · Monte Carlo · OTel GenAI)
  • SLA · SLO · DRE ⭐ —— 数据可靠性工程 · AI/LLM SLO 新维度
  • 湖仓反模式清单 —— 28 条反模式 · 上线前自查(含 AI/ML 反模式)

组 2 · 性能、容量、成本

让系统跑得好 · 花得对——FinOps + 性能工程的工业实践。

  • 性能调优 —— 数据布局优先 · 执行层次之 · 2024-2026 向量化前沿
  • 容量规划 —— 集群 / GPU / 向量库 / LLM 容量估算
  • 成本优化 —— 对象存储 / 计算 / GPU / LLM token / FinOps 五条线
  • TCO 模型 —— 自建 vs 云 vs SaaS · 含 AI 场景(LLM API vs 自托管 GPU)break-even

组 3 · 安全、合规、治理

谁能看 · 该留什么 · 怎么治——三件事一起做。

组 4 · 变更、迁移、灾难恢复

系统会演进 · 会迁 · 会挂——工程化应对。

  • 变更管理 ⭐(新)—— 数据 pipeline CI/CD · Schema evolution · Breaking change policy · 回滚 · Feature flag
  • 迁移手册 —— 7 条迁移路径(Hive→Iceberg · Delta↔Iceberg · Hudi→Paimon · SaaS 双向 · AI 应用迁移)
  • 灾难恢复 · DR —— 4 类灾难 + 向量库 DR + 模型 artifact DR + 不可变备份

组 5 · 故障管理

出事了怎么办——响应流程 + 排查方法。

  • 故障响应 ⭐(新)—— SEV 分级 · oncall · postmortem 框架 · 和 SLO 协同
  • 故障排查手册 —— 20 类问题排查树(湖仓 / ML / AI 应用 / Catalog)

组 6 · 生产准入

上线前最后一道守门——标准化 checklist。

2. 症状反向索引 · 按问题找页

"我遇到 X 问题 · 先看哪页"

症状 去哪读
查询突然变慢 performance-tuning §诊断流程 + troubleshooting §1
ETL 又挂了 troubleshooting §2-4 + sla-slo §Error Budget
数据对不上 troubleshooting §数据 + data-governance 血缘
账单失控 cost-optimization + tco-model
GPU 利用率低 ml-infra/gpu-scheduling §FinOps + capacity-planning §GPU
LLM token 成本高 cost-optimization §LLM Token + ai-workloads/semantic-cache
用户越权访问 security-permissions + multi-tenancy
合规审计过不了 compliance + data-governance
大表误删 / Schema 改坏 disaster-recovery §误操作 + change-management §回滚
Region / Catalog 挂了 disaster-recovery §Region + §Catalog
Schema 变更怎么发 change-management §Schema Evolution
要做 CI/CD pipeline change-management §CI/CD
要上线新数据产品 / 模型 production-checklist + sla-slo
P0 事故爆了怎么响应 incident-management §SEV + §oncall
要做 postmortem incident-management §Postmortem
Hive → Iceberg 迁移 migration-playbook §Hive→Iceberg
Delta → Iceberg / Hudi → Paimon migration-playbook §表格式迁移
从 SaaS 搬到自建 / 反向 migration-playbook §SaaS 双向
什么是 EU AI Act 工程要求 compliance §EU AI Act
LLM 幻觉率 SLO 怎么定 sla-slo §AI SLO + ai-workloads/llm-observability
ML 模型 drift 告警 ml-infra/model-monitoring canonical
训练数据质量 / PIT 问题 ml-infra/data-quality-for-ml canonical
别踩坑 anti-patterns 28 条

3. 按角色导读

SRE · 数据可靠性工程师(DRE)

核心必读(按顺序): 1. sla-slo · 可靠性体系(SLI/SLO/SLA/Error Budget) 2. observability · 可观测体系 3. incident-management · 故障响应 4. troubleshooting · 排查方法 5. disaster-recovery · 灾难恢复

平台工程师 / SRE Lead

核心必读: 1. 本页 index 全部 2. capacity-planning · 容量规划 3. multi-tenancy · 多租户 4. security-permissions · 权限体系 5. production-checklist · 生产准入标准

合规 / 治理负责人

核心必读: 1. compliance · 全球合规法规 2. data-governance · 治理工程 3. security-permissions §审计 + §数据保护 4. compliance §4 AI 合规 · 法规层

数据 / ML 工程师

核心必读: 1. anti-patterns · 28 反模式自查 2. performance-tuning · 性能调优 3. change-management · CI/CD + Schema 变更 4. troubleshooting · 排查

FinOps / 成本负责人

核心必读: 1. cost-optimization · 成本控制五线 2. tco-model · 战略成本决策 3. capacity-planning · 容量预算 4. ml-infra/gpu-scheduling §FinOps · GPU 成本

4. 生产 Operating Model · 闭环视角

为什么要这节:ops/ 不止是"能力清单"(可观测 / SLO / 安全 / DR / 成本 / 事故)· 而是一个闭环的生产体系。知道每个能力是起点 · 但怎么串成日常运转才是生产。

4.1 闭环图 · 从上线前到长期演进

flowchart LR
    ready[1 · 上线前<br/>准入 Readiness]
    observe[2 · 稳态<br/>观测 Observe]
    respond[3 · 出问题<br/>响应 Respond]
    recover[4 · 事后<br/>恢复 Recover]
    change[5 · 演进<br/>变更 Change]
    review[6 · 长期<br/>复盘 Review]

    ready --> observe
    observe --> respond
    respond --> recover
    recover --> review
    change --> ready
    review --> change

    observe -. 容量 / 成本 / 合规 .-> review
阶段 核心文档 输出
1 · Readiness production-checklist + sla-slo 准入打分 · SLO 承诺
2 · Observe observability + sla-slo + capacity-planning Dashboard · 告警 · Error Budget · cost dashboard
3 · Respond incident-management + troubleshooting SEV 分级 · 响应 · 止血
4 · Recover disaster-recovery + change-management §回滚 数据 / 服务 / 配置恢复
5 · Change change-management + migration-playbook CI/CD · Schema · Release governance
6 · Review incident-management §Postmortem + anti-patterns 事故复盘 · 反模式自查 · 架构债务

4.2 Operating Cadence · 节奏表

生产团队最容易失效的不是"工具"· 是"节奏"。下表给出建议周期(按团队规模调整):

周期 活动 文档指引
Oncall 交班 · 关键 dashboard 扫一眼 incident-management §Oncall
告警 review · Error Budget 消耗 · 上周事故扫 sla-slo §Error Budget
双周 Backlog triage · 架构债务评估 · 数据质量趋势 data-governance
成本 review · 容量预测 · P0/P1 事故复盘合辑 · 合规 checklist 自查 cost-optimization · compliance
季度 SLO 重定 · DR 演练 · Access review · Stale 数据清理 · 对抗评审 disaster-recovery §演练 · security-permissions
年度 TCO review · 技术栈演进决策 · 灾备策略 · 合规证书更新 tco-model

不演练 = 不存在:DR 演练 / postmortem cadence / access review 这三项最容易"设立但不执行"· 必须节奏化。

4.3 角色矩阵 · 谁负责什么

活动 SRE / DRE 平台工程师 数据 / ML 工程师 合规 / 治理 业务 / 产品
定 SLO R C C I A
Oncall 轮值 R R C I
Incident 指挥 R(IC 角色) C C I I
Postmortem R C C I I
Release 审批 C R C C A(关键变更)
Access Review C R I A I
Cost Review C R C A
合规审计 C C I R A
DR 演练 R R C I I

(R=Responsible · A=Accountable · C=Consulted · I=Informed)

关键判断:上表如果某一列全是 C/I · 该角色基本没被纳入生产体系 · 需要重新审视。

5. 成熟度模型 L0-L3

对照自己团队的阶段(借鉴 Google SRE Maturity 和 FinOps Framework):

L0 · 起步(多数团队起点)

  • 无监控 或 只有基础服务监控
  • ETL 失败靠邮件
  • 无 oncall 轮值
  • 无数据质量检查
  • 无成本归因

优先投入: 1. observability · 四平面先铺 2. anti-patterns · 自查避坑 3. security-permissions · 最小可用清单

L1 · 稳定(多数团队稳定态)

  • 基础监控 + 核心告警
  • 有 oncall · 但流程模糊
  • 有 ETL 质量检查(dbt tests / GE)
  • 成本有大致观测

优先投入: 1. sla-slo · 建立 SLO 体系 2. incident-management · 规范化 oncall 3. cost-optimization · FinOps 实施 4. disaster-recovery · 演练 DR

L2 · 生产级(成熟团队)

  • SLO 体系运行 · Error Budget 执行
  • 规范化 incident + postmortem 文化
  • Data Contract + Schema evolution 流程
  • Multi-tenant 隔离清晰
  • GDPR / 合规审计通过

优先投入: 1. change-management · CI/CD + Schema 流程化 2. compliance · EU AI Act 等新法规 3. production-checklist · 上线标准化 4. multi-tenancy · 隔离精细化

L3 · 卓越(头部团队)

  • 数据产品 SLA 对外承诺
  • 自愈系统(告警自动修复简单场景)
  • 零信任架构完整落地
  • AI/LLM 生产 SLO 体系(幻觉率 / token budget)
  • DRE 专职团队

对应:持续改进 · 跟进业界动向(benchmarks · vendor-landscape)+ 工业案例学习(cases/

6. 和其他章节的关系

flowchart TB
  subgraph ops["ops/ 本章 · 生产运维"]
    o_obs[可观测]
    o_slo[SLO]
    o_sec[安全]
    o_dr[DR]
    o_cost[成本]
    o_incident[故障响应]
  end

  subgraph aiworkloads["ai-workloads/ · LLM 应用"]
    a_obs[LLM Obs]
    a_auth[Authorization]
  end

  subgraph mlinfra["ml-infra/ · ML 平台"]
    m_mon[Model Monitoring]
    m_dq[Data Quality]
    m_gpu[GPU + FinOps]
  end

  o_obs -.分工.-> a_obs
  o_obs -.分工.-> m_mon
  o_sec -.分工.-> a_auth
  o_cost -.分工.-> m_gpu

原则:ops/ 只做工程落地 · 具体的 ML/AI 机制 canonical 在对应专章 · 通过 admonition 指向。

7. 新同事 30 天入门路径

Week 1:读本页 index + anti-patterns 自查团队当前状态

Week 2:根据你的角色 · 读"按角色导读"的必读 3-5 页

Week 3:挑一个你们团队最痛的症状 · 按 §2 症状反查走 · 实操解决一个 case

Week 4:读 production-checklist · 对照当前上线流程补漏

8. 版本复检

时效性 · 按 ADR 0007 SOP 复检

运维工具链变化快(OpenTelemetry GenAI 2024 / EU AI Act 2024-08 / FinOps Foundation 2025 更新)。本章 applies_to: 2024-2026 · last_reviewed: 2026-04-21 · 下次计划 2026-Q3 复检。

相关章节

  • scenarios/ · 业务场景端到端(scenarios 含运维相关场景 · 如 real-time-lakehouse)
  • cases/ · 工业案例参考(学大厂运维实践)
  • unified/ · 架构战略(ops 和架构的关系)
  • ml-infra/ · ML 平台(运维的 ML 视角)
  • ai-workloads/ · AI 应用(运维的 LLM 视角)
  • catalog/ · Catalog(治理平面)
  • [ops/compliance §4]((../ops/compliance.md) · AI 治理前沿