章节分工声明

本页：上线前 · 成熟度自检用的跨能力清单（能力 × 维度 · 便于 go-live review）
各能力的方法论 / 原理分别在：observability · sla-slo · cost-optimization · security-permissions · multi-tenancy · disaster-recovery · incident-management · change-management
本页只是清单形态的 review · 不重复方法论。

生产上线检查清单¶

Reference · 速查资深

一句话理解

"做不做"先于"做多好"。这份 50 条清单 按能力组划分 · 对照打勾 · 任何一项 "未通过" 都应阻塞上线或设定明确缓解期。

使用方式

M（Must）：不通过不能上线
S（Should）：建议完成 · 不通过需记录风险并设定缓解期
N（Nice）：成熟度提升项 · 上线后持续完善
上线 review 时逐条打勾 · 留存记录（ADR / 上线单）

组 1 · 可观测性（Observability）¶

canonical：observability

#	项	级别	通过标准
1	业务 SLI 已定义 · 有 Dashboard	M	p50/p95 延迟 · 错误率 · 吞吐 · 新鲜度至少 4 项落图
2	引擎层 metrics 接入 Prometheus	M	Spark/Trino/Flink/向量库的 key metrics 均可查
3	日志聚合到统一平台	M	Loki / Elastic / Datadog · TraceID 可检索
4	分布式 Trace 接入	S	OpenTelemetry · 关键链路可追
5	Data Lineage（OpenLineage）	S	关键表的上下游可视化
6	数据质量观测（Elementary / Monte Carlo）	S	异常列 / 缺失率 / 漂移监控
7	AI/LLM 专用观测（token / 幻觉率 / 召回）	M（AI 应用）	成本 · 质量 · 延迟三件事上图
8	告警分级（P0-P3）已配 + 路由到 on-call	M	不是所有告警都 page · 分级清晰

组 2 · SLA / SLO / DRE¶

canonical：sla-slo

#	项	级别	通过标准
9	SLO 已定义 · 有 Error Budget	M	至少"延迟 SLO"+"可用性 SLO" · budget 消耗有告警
10	每个关键服务有 RPO / RTO 目标	M	写在文档 · DR 演练可验证
11	DRE（Data Reliability Engineering）roadmap	S	3-6 月内的可靠性提升计划

组 3 · 成本 / FinOps¶

canonical：cost-optimization · tco-model

#	项	级别	通过标准
12	对象存储 lifecycle policy 已配	M	IA / Glacier / 过期清理
13	Compute 成本可按团队/项目归因	S	Kubecost / 云 tag / chargeback 报表
14	LLM token 成本有 budget + 告警	M（AI 应用）	人均 / 租户 / 应用三个维度可观测
15	GPU 利用率监控 · SM 利用率 ≥ 60%	S（有训练负载）	低于目标值触发 review

组 4 · 安全 / 权限 / 合规¶

canonical：security-permissions · compliance · data-governance

#	项	级别	通过标准
16	身份 · OIDC / OAuth 2.1 接入	M	不用个人 PAT 做长期 auth
17	权限最小化 · 无 admin 兜底	M	关键角色 review · 无 root 常驻
18	Secrets 走 Vault / Secrets Manager	M	无明文写在 config / 代码
19	数据分级 · PII 列已标记	M	data-governance 标签体系落地
20	行列级脱敏 / 审计日志	M（含 PII）	可查谁何时访问过哪条记录
21	传输加密（TLS） + 存储加密	M	mTLS / Service Mesh 优先
22	合规映射（GDPR / HIPAA / EU AI Act 等）	M（相关场景）	合规矩阵文档 · 审计可查
23	Prompt 注入 / 输出 guardrail	M（LLM 应用）	Llama Guard / Prompt Shield 等已启用
24	AI 供应链 SBOM · 模型卡	S（AI 应用）	模型来源 · license · 训练数据说明

组 5 · 多租户 / 隔离¶

canonical：multi-tenancy

#	项	级别	通过标准
25	Namespace / Catalog 按租户隔离	M	跨租户不能互访
26	Resource quota（CPU/Mem/GPU/Storage）	M	单租户不可 starve 其他
27	QoS / 优先级（在线 > 离线 > 探索）	S	队列 / YARN / K8s priority 已配
28	向量库 · GPU · LLM token 三类 AI 资源隔离	S（有 AI 负载）	per-tenant quota 可观测可限流

组 6 · DR / Backup¶

canonical：disaster-recovery

#	项	级别	通过标准
29	关键表 `expire_snapshots` 保留 ≥ 30 天	M	误操作可回滚
30	里程碑自动打 Tag	S	季末 / 发布 / 大变更
31	对象存储 Versioning + 跨区复制已开	M	bucket level 已配
32	Catalog 后端 DB 有 daily snapshot	M	Postgres PITR / mysqldump
33	不可变备份（S3 Object Lock）	S	关键数据 Compliance mode · 防勒索
34	至少做过 1 次 DR 演练 · 有记录	M	未演练 = 不存在
35	AI 资源 DR（向量库 · Model Registry）	S（有 AI 负载）	按独立策略备份

组 7 · 事故 / 变更¶

canonical：incident-management · change-management

#	项	级别	通过标准
36	Oncall 轮值已建立 · PagerDuty/OpsGenie	M	告警能找到人
37	SEV 分级 + 响应 SLA 已文档化	M	P0 < 15min · P1 < 1h 等
38	Postmortem 模板 + Blameless 文化	M	每次 P1 有 postmortem
39	CI/CD 流水线（dbt slim CI · 单测 · 质量 gate）	M	PR 自动跑 · 不依赖人眼
40	Schema 变更走 review · breaking change 有 30 天 notice	M	Data Contract 机制
41	关键变更有 Feature Flag	S	启用 / 回滚独立控制
42	回滚 Runbook 已写 · 可演练	M	不在个别人脑子里

组 8 · 性能 / 容量¶

canonical：performance-tuning · capacity-planning

#	项	级别	通过标准
43	压测 · 至少覆盖预期峰值的 1.5×	M	报告存档
44	小文件治理 / Compaction 策略已配	M	自动定时跑
45	容量规划文档 · 3-6 月增长预估	S	存储 / Compute / GPU / 向量库都估
46	向量索引参数 tuning 已做	S（有检索负载）	recall / latency 权衡文档化

组 9 · 文档 / Runbook¶

#	项	级别	通过标准
47	架构图 + 上下游依赖图	M	新人可理解
48	On-call Runbook（常见故障 → 处置）	M	不靠口口相传
49	ADR（重要决策）已归档	S	1 年后可追溯"为什么这样做"
50	接入方对接文档 / SLA 公告	S（对外服务）	下游能自助

分场景准入子模板 · 增量项¶

通用 50 条是基线。不同产品类型还有场景独有的准入项 · 本节列增量（不重复通用）。

场景 A · 数据产品上线（Iceberg 表 / dbt 模型 / 数据管线）¶

#	项	级别	通过标准
A1	Data Contract 签字 · 消费方 ack	M（跨团队）	关键字段 / SLA 契约化
A2	Owner · 主 / 备 owner · Catalog 填	M	紧急时找到人
A3	血缘打通 · OpenLineage 事件可追	S	上下游可视化
A4	dbt test · 关键字段 unique / not_null / relationships	M	CI 阻断
A5	Freshness SLO · 明确到小时 / 分钟级	M	数据产品基线
A6	Schema 变更流程 · 走 change-management	M	Breaking change 30 天通知
A7	Retention policy · 保留期明确 · lifecycle rule 配	M	合规 + 成本
A8	PII tag · 涉敏感字段标注	M（含 PII）	mask / audit 策略生效

场景 B · ML Serving 上线（模型服务 API）¶

#	项	级别	通过标准
B1	Model Registry alias · champion / challenger 清晰	M	回滚 5 分钟内
B2	Shadow → Canary → Champion 路径验证	M	至少通过 shadow 1 周
B3	Model Card · 训练数据 · 评估 · 限制文档	M	合规要求（EU AI Act）
B4	Drift 监控 · PSI / 分布对比	M	见 ml-infra/model-monitoring
B5	Feature Store 契约 · 训推一致性	M	防训推 skew
B6	Serving SLO · p50 / p99 延迟 + 吞吐	M
B7	Auto-retrain 触发 · 明确条件（drift / 时间 / 业务 KPI）	S	长期维护
B8	Fallback 策略 · 模型挂了降级到规则 / 上一版	M	防单点

场景 C · LLM / RAG 应用上线（Chatbot · 企业问答 · Copilot）¶

#	项	级别	通过标准
C1	Prompt 版本化 · Registry 管理	M	回滚 < 1min
C2	Guardrails · Input / Output / Tool 三层护栏	M	见 ai-workloads/guardrails
C3	Model pinning · `claude-sonnet-4-5-YYYY-MM-DD` 具体版本	M	防 provider 漂移
C4	Token budget · 人 / 租户 / 应用维度配额	M	成本熔断
C5	幻觉 SLO · faithfulness / groundedness 阈值	M	见 sla-slo §AI SLO
C6	RAG 评估集 · Golden Set 100+ 条 · CI 跑 RAGAS	M	prompt / 模型变更 gate
C7	引用 / Source 溯源 · 答案可追溯到 chunk	M	合规 + 审计
C8	Prompt 注入 / 越狱回归测试	M	CI 跑 Llama-Attacks / PyRIT 子集
C9	Conversation history 合规 · PII 脱敏 · retention	M（含 PII）
C10	LLM Gateway · 统一路由 · 限流 · fallback	M	见 ai-workloads/llm-gateway

场景 D · 向量检索服务上线（搜索 · 推荐 · 多模）¶

#	项	级别	通过标准
D1	Embedding 模型 pinning · 版本 + checkpoint 锁	M	防 drift
D2	索引参数 · M / efConstruction / ef 定 + 文档	M	recall / 延迟 trade-off 记录
D3	Recall / NDCG 基线 · Golden query 评测	M	质量 SLO
D4	Filter-aware 测试 · 元数据过滤 + ANN 组合 case	S	长尾场景
D5	冷 / 热数据分层 · 热在 mem · 冷在 SSD / 归档	S	成本
D6	Hybrid（dense + sparse） · BM25 + dense fallback	S	召回
D7	Rerank 层 · Cross-encoder · 可选开关	S	精度
D8	批量 + 增量写入协调 · 防 OOM / 索引 lag	M

场景 E · 平台能力升级（Catalog / 引擎 / 底座变更）¶

#	项	级别	通过标准
E1	影响面评估 · 血缘下游所有系统清单	M	知道谁会受影响
E2	多 stakeholder 审批 · CAB 级别（见 change-management §6.1）	M	Breaking 变更必需
E3	全量引擎版本对齐 · 混用风险评估（如 Iceberg v3）	M	见 troubleshooting §Iceberg v3
E4	灰度迁移 · 先试点表 / 服务 · 稳后全量	M
E5	并行期 · 新旧栈共存窗口 · 回滚预案	M	防一次性切坏
E6	兼容矩阵文档 · 支持版本 / 废弃版本清单	S	长期维护

成熟度判定¶

< 30 项 Must 通过：不应上线 · 先补齐
全部 Must + 50% Should：可上线（P2 业务）
全部 Must + 80% Should + Nice 部分：可上线 P0/P1 业务
长期目标：全部 Must + 全部 Should + 80% Nice

配合机制¶

上线 review 会议：业务方 + 平台 + SRE + 安全 + 合规共同打分
清单存档：每次上线留存打分记录（ADR / 上线工单）
每季度复查：老系统按新清单补齐
清单演进：新出现的故障类型（如 2025 的 prompt 注入 · 2026 的 MCP Server 安全）及时加入

延伸阅读¶

Google SRE Book · Launch Coordination Engineering
AWS Well-Architected Framework
The DevOps Handbook · Production Readiness Review 章节
FinOps Foundation · FinOps Framework