场景指南¶
Reference · 速查
本章组织
本章按 4 个业务领域 + 1 个全景入口:
- 全景入口:E2E 业务场景全景
- BI · 分析:BI on Lake / 即席探索
- RAG · AI:RAG on Lake / Agentic 工作流 / Text-to-SQL / 多模检索流水线
- 流 · 实时:流式入湖 / Real-time Lakehouse / CDP 用户分群 / 欺诈检测
- ML · 推荐:离线训练数据流水线 / Feature Serving / 经典 ML / 推荐系统
外部权威:docs/references/scenarios/(推荐 / RAG / Agent 经典论文 · 工业实践博客)。
其他入口方式
本页是「按业务场景」入口。也可以从其他维度进入:
本章是场景视角 · 不复述机制
讲业务场景的端到端编排 + 工业案例切面。机制原理在对应技术栈章(lakehouse/ · retrieval/ · query-engines/ · bi-workloads/ · ai-workloads/ · ml-infra/ · catalog/ · pipelines/)· 本章不复述。
和 cases/ 配对:scenarios/X = "怎么做 X + 业界怎么做 X" · cases/X = 单家公司全栈历史与取舍。
怎么用
- 带着业务问题进来 → 从 E2E 业务场景全景 开始
- 想深挖某个业务 → 直接看下面"业务深挖"
- 要搭架构 / 流水线 → 看"架构视角的端到端场景"
- 要学工业案例 → 从业务页 §工业案例节切入 + 回 cases/ 看全栈
三角关系 · 场景 / 案例 / 机制¶
flowchart LR
scenarios[scenarios/<br/>业务场景端到端<br/>+ 内嵌案例切面]
cases[cases/<br/>全栈企业参考<br/>Netflix/LinkedIn/Uber/...]
mech[机制章 canonical<br/>lakehouse/retrieval/...<br/>ai-workloads/ml-infra/catalog]
user[读者] -->|带业务问题| scenarios
user -->|研究业界全栈| cases
user -->|学机制原理| mech
scenarios -.切面指向.-> cases
scenarios -.机制指向.-> mech
cases -.对应场景指向.-> scenarios
从业务找入口 · 强烈推荐先读¶
- ⭐ E2E 业务场景全景 —— 业务视角的分类框架 + Top 10 主流场景 + 前沿方向 + 决策矩阵 + Benchmark 索引。新同事带着业务问题进来,这里是第一站。
业务视角深挖¶
从业务问题出发的完整解决方案 · 每页含:业务图景 + 组件链路 + Benchmark + 工业案例深度切面(2-4 家)+ 陷阱。
| 场景页 | 主要内嵌案例 |
|---|---|
| 推荐系统 · 搜索 · 发现 ⭐ | Pinterest · 阿里 · LinkedIn |
| RAG on Lake · 企业知识库问答 ⭐ | Databricks · Snowflake · Netflix |
| BI on Lake · 湖上分析与仪表盘 ⭐ | Databricks · Snowflake · Netflix |
| 欺诈检测 · 风险控制 | Uber · LinkedIn |
| CDP · 用户分群 | 阿里 · LinkedIn |
| Agentic 工作流 · 自动化 | Databricks Genie · Snowflake Cortex · Anthropic |
| Text-to-SQL 平台 | Databricks Genie · Snowflake Cortex Analyst · 阿里 |
| 多模检索流水线 | Pinterest · 阿里 · Databricks |
架构视角的端到端场景¶
从架构组件出发的流水线模板 —— 适合要搭建某条链路时参考。每页含"相关工业案例"短节 · 深度去 cases/ 全栈页。
- 流式入湖 —— CDC + 事件流持续入湖 · 案例:LinkedIn Kafka · 阿里 Flink CDC
- Real-time Lakehouse —— 端到端分钟级一体化 · 案例:阿里 Paimon · Uber Hudi
- 离线训练数据流水线 —— 可复现 + PIT 的训练集生成 · 案例:Uber Michelangelo · Netflix Metaflow
- Feature Serving —— 在线推理的毫秒级特征拉取 · 案例:LinkedIn Venice · Uber Palette/Genoa
按问题找场景 · 反向索引¶
"我要做 X · 先看哪页":
| 我的问题 | 优先读 | 配对案例 |
|---|---|---|
| 做电商 / 内容推荐 | recommender-systems | Pinterest · 阿里 · LinkedIn |
| 做企业知识库 / 客服 RAG | rag-on-lake | Databricks · Snowflake |
| 做 BI 分析仪表盘 | bi-on-lake | Databricks · Snowflake · Netflix |
| 做风控 / 反欺诈 | fraud-detection | Uber |
| 做用户分群 / 画像 | cdp-segmentation | 阿里 |
| 做 Agent / 自动化 | agentic-workflows | Databricks Genie · Snowflake Cortex Agents |
| 做自然语言 BI | text-to-sql-platform | Databricks Genie · Snowflake Cortex Analyst |
| 做图文 / 视频检索 | multimodal-search-pipeline | Pinterest · 阿里 |
| 做 Feature Store 选型 | feature-serving + ml-infra/feature-store | LinkedIn Venice · Uber Palette |
| 做训练数据 PIT Join | offline-training-pipeline | Uber Michelangelo |
| 做流式湖仓 | real-time-lakehouse | 阿里 Paimon · Uber Hudi |
| 做 Kafka 入湖 | streaming-ingestion | LinkedIn Kafka |
不同读者的阅读建议¶
新同事 · 带业务问题进来¶
- 先读 business-scenarios 建立业务全景
- 按上面"反向索引"挑一页业务深挖
- 读业务页前半(业务 + 架构 + 组件)
- 读 §工业案例节(业界怎么做)
- 想深度看某家公司 → 跳 cases/
资深架构师 · 做选型决策¶
- 先读对应业务场景深挖页 §工业案例节(多家对比)
- 看 cases/studies.md 7 家横比矩阵
- 读 unified/index §5 团队路线主张
- 综合做决策
平台工程师 · 要搭架构¶
- 读"架构视角"4 页(streaming / real-time / offline-training / feature-serving)
- 配对对应机制章 canonical(ml-infra · ai-workloads · lakehouse · retrieval)
- 参考 cases/ 工业规模和取舍
中国团队特别建议¶
- 推荐 / 电商场景:重点读阿里切面 · 配对 cases/alibaba
- 流式湖仓:real-time-lakehouse + Paimon · 中国团队最可复制
- 国内工业实践:目前 cases/ 只有阿里 · 后续补字节 / 腾讯 / 美团
和其他资源¶
- ADR · 团队技术决策
- FAQ · 常见问题速答
- Learning Paths · 角色学习路径