参考资料 · 运维 / SRE / DataOps / FinOps¶
Reference · 速查
SRE 经典¶
- Site Reliability Engineering: How Google Runs Production Systems (2016, book - Google) —— SRE 圣经,免费在线。SLA/SLO/SLI、Error Budget、Postmortem 等概念奠基。
- The Site Reliability Workbook (2018, book - Google) —— SRE 实战手册。
- Building Secure & Reliable Systems (2020, book - Google) —— 安全 + 可靠性。
DataOps / DRE¶
- The DataOps Manifesto (manifesto) —— DataOps 18 条原则。
- Data Reliability Engineering at Lyft (2021, blog) —— DRE 工业实践。
- The State of DataOps (annual, survey) —— 行业现状综述。
FinOps¶
- FinOps Foundation Framework (official-doc) —— FinOps 6 大原则 + 6 大能力。
- Cloud FinOps - Collaborative, Real-Time Cloud Financial Management (2023, book) —— FinOps 实战教科书。
数据治理 / 安全 / 合规¶
- Data Governance Institute (official-doc) —— DGI 数据治理框架。
- NIST Privacy Framework (official-doc) —— 隐私治理。
- GDPR Official Text (official-doc) —— GDPR 全文与实施细则。
- EU AI Act (official-doc) —— EU AI Act 全文(2024 通过)。
- OWASP Top 10 (Web) (official-doc) —— Web 安全清单。
事故管理 / Postmortem¶
- Google SRE Book - Postmortem Culture (book chapter) —— Blameless postmortem 经典。
- PagerDuty Incident Response Documentation (official-doc) —— On-call / Sev / Incident Response 工业实践。
- Etsy Debriefing Facilitation Guide (official-doc) —— Debriefing 实战。
容量规划 / 性能¶
- Capacity Planning for Web Performance (usenix paper) —— 容量规划方法论。
- Brendan Gregg's Performance Resources (blog) —— 系统性能权威。
灾难恢复¶
- AWS Disaster Recovery Whitepaper (official-doc) —— DR 4 类策略 (Backup/Pilot Light/Warm Standby/Multi-Site)。
- Google SRE - Service-Best Practices (book chapter) —— Toil 消除 / 自动化。
反模式¶
- Anti-Pattern Catalog (blog - Martin Fowler) —— 反模式经典定义。
- The Twelve-Factor App (manifesto) —— 现代应用 12 要素(适用部分对数据系统)。
待补:2025-2026 LLM/Agent ops 经典;DRE 综述;EU AI Act 实施案例