参考资料 · ML 平台 / MLOps¶
Reference · 速查
MLOps 框架与成熟度¶
- Google MLOps: Continuous delivery and automation pipelines in machine learning (2020+, official-doc) —— 三级 maturity model (Manual / Pipeline Automation / CI/CD)。与本 wiki ml-infra 章节"数据→模型生命周期→训练基建"组织部分对齐(components: Data validation / Feature stores / ML metadata / Pipeline orchestration / Model registries / Monitoring)。
- Hidden Technical Debt in Machine Learning Systems (2015, paper - Google) —— ML 系统技术债经典论文,证明 "ML 代码只占系统 5%"。
- Continuous Delivery for Machine Learning (CD4ML) (2019, blog - Martin Fowler) —— ML CI/CD 实践。
Feature Store¶
- Uber - Meet Michelangelo: Uber's Machine Learning Platform (2017, blog) —— Feature Store 鼻祖博客。工业验证。
- Feast Documentation (official-doc) —— Feast 是开源 Feature Store 事实标准。
- The Feature Store Architecture (blog - Tecton) —— 厂商主张(Tecton)但架构详尽。
- Hopsworks - Feature Store Capabilities (blog) —— Hopsworks 视角的 FS。
Model Serving¶
- KServe Documentation (official-doc) —— Kubernetes ML serving 标准。
- Ray Serve (official-doc) —— Ray 生态 serving。
- NVIDIA Triton Inference Server (official-doc) —— GPU serving 标准。
- BentoML (official-doc) —— Python-first serving framework。
LLM Inference¶
- vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention (2023, blog) —— PagedAttention 论文级博客。
- FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022, paper) —— FlashAttention v1 论文。
- SGLang: Efficient Execution of Structured Language Model Programs (2023, paper) —— SGLang 结构化 LLM 执行。
- Speculative Decoding (2022, paper - Google) —— 推测解码加速推理。
训练编排 + GPU¶
- Ray Train Documentation (official-doc) —— 分布式训练。
- Kubeflow Documentation (official-doc) —— K8s ML 平台。
- NVIDIA - Multi-Instance GPU (MIG) (official-doc) —— GPU 切片调度。
实验跟踪 / Model Registry¶
- MLflow Documentation (official-doc) —— Tracking / Projects / Models / Registry。
- Weights & Biases (official-doc) —— 商业 + 免费版本。
- Neptune.ai (official-doc) —— 实验跟踪。
数据质量与监控¶
- Great Expectations Documentation (official-doc) —— 数据质量框架。
- WhyLabs - WhyLogs (official-doc) —— ML 数据 / 模型监控。
- Evidently AI (official-doc) —— Drift detection。
综述与教科书¶
- Designing Machine Learning Systems (2022, book - Chip Huyen) —— ML 系统设计经典。
- Machine Learning Engineering for Production (course - Andrew Ng) —— MLOps 课程。
- Made With ML (blog/course - Goku Mohandas) —— MLOps 实战。
待补:2025-2026 LLMOps 框架;Agent ops;Distributed inference 最新工程方案