E2E 业务场景全景¶

How-to · 任务导向进阶

建议先读

一句话理解

scenarios/ 里其他页是架构视角（这种结构怎么搭）；这一页是业务视角——给你一个分类框架 + Top 10 主流业务场景 + 前沿方向，每个都映射到核心组件和可部署的参考。新同学带着业务问题进来，这页是第一站。

TL;DR

分类框架 = 工作负载访问模式 × 业务产出（两个正交轴）
Top 10 主流场景：BI 报表 / 即席探索 / 实时运营 / 企业 RAG / 多模检索 / 推荐 / 欺诈风控 / CDP 分群 / 经典 ML / Agentic 工作流
前沿：Text-to-SQL · AI-native Analytics · 近实时个性化 · 持续学习 · 多模内容生成 · 科研数据平台
决策矩阵：场景 × 存储 × 计算 × 检索 × 观测
Benchmark 索引：TPC-DS · BEIR · MS MARCO · Criteo · Taobao · LAION 等

为什么要这一页¶

团队新同学过来常问的不是"湖表怎么做 ACID"，而是：

"我们要做客服 AI 问答，该怎么组合？"
"我要搭一个电商推荐系统，选哪些组件？"
"风控团队的反欺诈怎么落湖？"

架构视角不直接回答这些。这页按业务→技术倒推，把手册的组件拼成场景方案。

分类框架¶

两个正交轴¶

Axis 1 · 工作负载访问模式（workload shape）—— 决定了技术栈的核心诉求

访问模式	特征	延迟目标	规模特征
Batch OLAP	批量大扫描 + 聚合	分钟-小时	GB/s 扫描吞吐
交互探索	分析师 ad-hoc SQL	秒级	并发低但要快
实时分析	事件驱动 / 看板 / 告警	秒-分钟	持续流入
经典 ML	批训练 + 在线推理	训练：分钟-小时；推理：毫秒	训练重；推理高并发
检索 / 搜索	ANN + hybrid + 过滤	p99 < 50ms	数百-千 QPS
LLM / 生成	长上下文生成	秒-十秒	TPM/RPM
多模 / 跨模态	图 ↔ 文 ↔ 音联合检索	< 400ms	中等 QPS

Axis 2 · 业务产出（what it delivers）—— 决定了数据模型和消费路径

产出	读者	典型形态
决策支持	管理层 / 分析师	仪表盘 · 报表 · 临时分析
预测 / 评分	业务系统	分值 API · 批产出表
推荐 / 发现	终端用户	Top-K 列表 · 排序结果
生成 / 回答	终端用户 / 内部工具	文本 · 代码 · 图片
检测 / 识别	风控 / 审核 / 运维	告警 · 打分 · 自动决策
自动化	内部工作流	Agent 执行完整任务链

交叉矩阵¶

每个业务场景 = 落在一组"(访问模式, 产出)"格子里。

Top 10 主流业务场景¶

每个场景 统一 6 段结构：业务定义 → 存储 → 计算 → 组件链路 → Benchmark → 可部署参考。

1. BI · 报表 · 仪表盘¶

业务：月/周/日报、KPI 大屏、部门分析、财务审计。面向管理决策。

存储诉求： - 宽事实表 + 维度表（详见 OLAP 建模） - 数据新鲜度 T+1 或小时级 - 历史可追溯（Time Travel 可选）

计算诉求： - 大 shuffle + 聚合（Spark 批 ETL） - 高并发仪表盘查询（Trino 或 StarRocks 加速副本） - p95 ≤ 3s（仪表盘）

组件链路：

OLTP / 日志 → Flink CDC / Spark → Iceberg (ODS / DWD / DWS / ADS 四层)
                                      → Trino 交互 + StarRocks 物化视图
                                      → Superset / Tableau / 自研

Benchmark：TPC-DS / TPC-H / SSB（Star Schema Benchmark）

可部署参考： - Superset + Trino + Iceberg（docker-compose 社区方案很多） - 我们的 BI on Lake 场景

2. 即席探索 / 数据科学 Notebook¶

业务：数据分析师、科学家打开 Jupyter 随手查；验证假设；出一张图。

存储诉求： - 直接读湖表（无需 export） - Snapshot 锁定以保证复现

计算诉求： - 单机或小集群即可 - 延迟敏感（< 10s 出结果）

组件链路：

Iceberg / Paimon → DuckDB / Polars / pyiceberg + PyArrow → Jupyter

Benchmark：没有标准；用自家 Top 20 真实查询

可部署参考： - DuckDB + Iceberg extension，零配置起步 - Your first Iceberg table tutorial

3. 实时运营看板 / 监控告警¶

业务：实时 GMV、实时流量、订单异常告警、服务健康大屏。

存储诉求： - 分钟级新鲜度（流式入湖） - 短期热数据 + 长期归档分层

计算诉求： - Flink / Spark Streaming 聚合 - StarRocks / ClickHouse 加速副本供仪表盘 - 流式聚合 + 窗口（见 Watermark）

组件链路：

Kafka / CDC → Flink → Paimon (主键表 + changelog)
                         ↓
                    StarRocks 加速 → Dashboard (秒级刷新)
                         ↓
                    Flink CEP → 告警 / 通知

Benchmark：业内无统一；可用 NYC Taxi 流式数据集做测试

可部署参考： - Real-time Lakehouse 场景 - Flink CDC + Paimon 社区 demo

4. 企业 RAG · 知识库问答 · 客服¶

业务：员工问"休假流程怎么走"；客户问"我的订单状态"；开发者问"代码库里的 API 怎么用"。基于企业内部文档 / 代码 / 对话库。

存储诉求： - doc_chunks Iceberg / Paimon 表（元数据可追溯） - 向量列多套（CLIP / BGE / 语种特化）

计算诉求： - 离线：Embedding 批量 + 索引构建 - 在线：检索 < 150ms + rerank < 100ms + LLM < 1s - 更新频率：分钟到小时

组件链路：

源文档 (wiki/代码/JIRA) → 解析 + chunk → Iceberg doc_chunks
                                            ↓
                             Embedding (BGE / multilingual) → LanceDB / Puffin
                                            ↓
Query → Hybrid (dense + BM25) → Rerank (Cross-encoder) → Prompt → LLM (vLLM/TGI) → 答案 + 引用

Benchmark：BEIR · MS MARCO · Natural Questions · RAGAS 评估框架

可部署参考： - 我们的 60 分钟 RAG on Iceberg tutorial - RAG on Lake 场景 - LangChain + LlamaIndex 社区 RAG demo

5. 多模检索 · 以图搜图 · 跨模态¶

业务：设计师"用一张图找相似款"；电商"以图搜货"；视频平台"找到同款"；法务"翻 PDF 找证据图"。

存储诉求： - 多模 asset 表（URI + 元数据 + CLIP 向量 + 文本 OCR/caption） - 原文件留对象存储，表里只存指针

计算诉求： - 离线：VLM caption / OCR / 音频 ASR + 多模 embedding - 在线：跨模态向量检索 + metadata 过滤

组件链路：

上传 / 采集 → 对象存储 → 元数据入 Iceberg / Lance
                          ↓
        图像管线 / 视频管线 / 音频管线 / 文档管线
                          ↓
              CLIP / SigLIP embedding
                          ↓
                    LanceDB 向量列
                          ↓
         Query (文 / 图 / 混) → Hybrid → Rerank → 返回

Benchmark：COCO (caption) · Flickr30k · LAION 子集 · MS-COCO image-text retrieval

可部署参考： - 30 分钟多模检索 demo - 多模检索流水线场景

6. 推荐系统 · 搜索 · 发现¶

业务：电商首页推荐、视频 feed 排序、音乐推荐、搜索结果个性化。面向终端用户，追求转化 / 停留。

存储诉求： - 用户行为明细表（曝光 / 点击 / 消费，百亿级） - 用户 / Item embedding - 在线 Feature Store（低延迟 KV）

计算诉求： - 离线：召回 / 排序模型训练 - 在线：毫秒级召回 + 排序 + rerank - 近实时：用户行为反馈分钟级更新特征

组件链路：

行为日志 (Kafka) → Flink → Iceberg 事实表
                              ↓
                    Feature Store (离线训练 + 在线 KV)
                              ↓
            双塔 embedding 模型 (用户 × item)
                              ↓
            LanceDB / Milvus 向量召回
                              ↓
      Learning-to-Rank 精排 (XGBoost / DNN)
                              ↓
                   业务规则过滤 → 结果

详见 推荐系统场景深挖。

Benchmark：Criteo (点击率) · MovieLens (电影推荐) · Taobao 公开数据集

可部署参考： - RecBole (Python 推荐系统库，集成多个 baseline) - 阿里 EasyRec (开源推荐框架) - Merlin (NVIDIA GPU 推荐)

7. 欺诈检测 · 风险控制¶

业务：支付欺诈、账号盗用、洗钱识别、信贷风控。

存储诉求： - 交易明细表 + 用户画像 + 设备指纹 - 图数据（账户/设备/交易关系网络） - 规则引擎配置表

计算诉求： - 实时：单笔交易百毫秒完成打分 - 近实时：滚动特征（近 1h / 24h） - 离线：模型重训

组件链路：

支付流水 (Kafka) → Flink → Iceberg / Paimon
                              ↓
                 实时特征 (Flink state + Redis)
                              ↓
             特征 → 模型 (XGBoost / DNN / GNN)
                              ↓
                    规则引擎 (Drools / 自研)
                              ↓
                   判决: pass / review / reject

图侧（高级）： - Neo4j / Nebula Graph 建账户关系 - GNN 训练识别欺诈团伙

详见 欺诈检测深挖。

Benchmark：IEEE-CIS Fraud Detection · PaySim (模拟金融交易) · Elliptic Bitcoin (图) · DGraphFin

可部署参考： - Feast + Spark + XGBoost 最小闭环 - PyG / DGL + DGraphFin 做 GNN baseline

8. 用户分群 · CDP · 精细化运营¶

业务：RFM 分群、流失预警、促销定向、个性化触达（短信 / Push）。

存储诉求： - 行为事件表（海量） - 画像宽表（数百列） - 标签表（业务定义的群组）

计算诉求： - 离线：Spark 跑 RFM / 聚类 / LTV - 准实时：事件触发规则（用户 7 天无下单 → 加入流失风险群）

组件链路：

事件 → Iceberg 明细表
         ↓
      Spark 计算宽表 / 标签 / 分群
         ↓
        Trino / BI (分群可视化)
         ↓
  标签表 → 营销系统 (SMS / Push / 广告投放)

详见 CDP / 用户分群深挖。

Benchmark：Olist 巴西电商 · Online Retail II · Retailrocket

可部署参考： - GrowingIO / 神策 / Segment 公开 demo - 自研：Iceberg + dbt + Superset 的最小 CDP - Apache Unomi（开源 CDP 标准实现）

9. 经典 ML 预测 / 评分¶

业务：用户流失预测、信贷额度、商品销量预测、需求预测。

存储诉求： - 训练集可复现（Iceberg Snapshot 锁定） - Point-in-Time Correct Join（见离线训练数据流水线） - 在线特征 KV（Redis / DynamoDB）

计算诉求： - 批训练：Spark MLlib / XGBoost / PyTorch - 在线推理：REST API 毫秒级

组件链路：

事实表 + 特征表 (Iceberg) → PIT Join → 训练集
                                          ↓
                             训练 (Ray Train / Spark ML)
                                          ↓
                                   Model Registry
                                          ↓
                 部署 (Ray Serve / KServe / MLflow serving)
                                          ↓
                          业务系统调 API 拿评分

Benchmark：取决任务 - 分类：Higgs · Criteo - 时序预测：M5 · M6 - 推荐评分：见推荐系统 benchmark

可部署参考： - 离线训练数据流水线 + Feature Serving - MLflow + DVC 的标准 MLOps 闭环

10. Agentic 工作流 · 自动化¶

业务：客服自动处理工单；研发 "自动写测试"；运维 "自动 debug 慢查询"；数据分析师的 "chat-to-insight"。

存储诉求： - 任务 / 对话历史表 - Tool 注册表 - 知识库（RAG 侧同享） - Audit log

计算诉求： - LLM 多轮调用 - Tool 调用（SQL / API / 代码执行） - 长上下文（10K+ tokens 常见）

组件链路：

用户请求 → Agent (LLM + Controller)
                 ↓
            决策循环：
                ├── Tool: Text-to-SQL → Trino → 结果
                ├── Tool: Vector 检索 → LanceDB
                ├── Tool: 执行代码 → 沙箱
                └── Tool: 外部 API
                 ↓
              最终回答 + 引用 + 可复现轨迹

详见 Agentic 工作流深挖。

Benchmark：SWE-bench (软件工程)· τ-bench (工具使用) · WebArena · AgentBench

可部署参考： - LangGraph / AutoGen 上的 demo - Anthropic Computer Use / OpenAI Function Calling 示例

前沿场景（2024–2026）¶

Text-to-SQL / Semantic SQL¶

业务：业务人员"给我看过去 30 天华北区 iPhone 销量"，系统自动生成 SQL。

关键挑战： - 表 schema / 列语义自动对齐 - 多表 join 的启发式 - 权限穿透（用户能查的表不能越权）

推荐栈：Vanna / LlamaIndex SQL / Spider 数据集训练的自定义模型 + RAG over schema

Benchmark：Spider · BIRD · WikiSQL

AI-native Analytics¶

业务：分析师和 LLM 协同工作——不是替代分析师，而是让分析师 10× 效率。LLM 写查询草稿、解释结果、提建议。

推荐栈：LLM co-pilot 嵌入 Superset / Metabase / Jupyter；RAG 辅助 schema 理解

近实时个性化¶

业务：用户行为分钟级反馈到推荐排序，而不是 T+1。

推荐栈：Flink 实时特征 + Paimon changelog → 在线 FS → 模型在线更新

持续学习 / Online Learning¶

业务：模型不是"训一次部署"，而是持续用新数据增量更新。

推荐栈：River (Python) · Vowpal Wabbit · 自研 embedding drift 检测

多模内容生成¶

业务：电商自动生成商品描述 + 封面图；营销文案 + 配图；短视频脚本。

推荐栈：LLM 文本 + Stable Diffusion / Imagen 图片 + MCP 编排

科研数据平台¶

业务：药物发现（AlphaFold）· 材料（ChEMBL）· 基因（UK Biobank）· 气候模拟。

特点： - 数据量极大（PB 级） - 多模：结构 + 文献 + 实验 - 强复现性要求

推荐栈：湖仓 + Notebook + 专用工具（RDKit / Biopython）

决策矩阵：场景 × 核心组件¶

场景	表格式	计算	检索 / 向量	加速	观测关键
BI 仪表盘	Iceberg	Trino · Spark	—	StarRocks MV	查询 p95 · 仪表盘刷新
即席探索	Iceberg	DuckDB · Trino	—	—	查询 p50
实时运营	Paimon	Flink · Trino	—	StarRocks	端到端 lag · 告警延迟
企业 RAG	Iceberg	Spark 批 · Flink CDC	LanceDB	—	召回 @ K · Groundedness
多模检索	Iceberg / Lance	Spark · Flink	LanceDB / Milvus	—	跨模态 recall
推荐	Iceberg · Feature Store	Spark · Ray Train	LanceDB (召回)	Online KV	线上效果 AB
欺诈检测	Paimon · 图 DB	Flink · Spark	图嵌入	Redis	实时打分延迟
CDP	Iceberg 明细	Spark · dbt	—	—	分群跑批 SLA
经典 ML	Iceberg + FS	Spark · Ray	—	Online KV	train/serve skew
Agentic	Iceberg	LLM serving	LanceDB	—	Task success · cost

Benchmark · Dataset · Demo 索引¶

领域	Benchmark / Dataset	对应
OLAP	TPC-DS 10/100/1000, TPC-H, SSB, ClickBench	Benchmark 参考
检索	BEIR, MS MARCO, Natural Questions, HotpotQA	RAG / 搜索
多模检索	MS COCO, Flickr30k, LAION 子集, MS-COCO image-text	多模检索
推荐	Criteo, MovieLens, Taobao User Behavior	推荐系统
欺诈	IEEE-CIS Fraud, PaySim	风控
ML 经典	Higgs, Kaggle 各比赛	ML 预测
时序	M5, M6, ETT	预测
LLM	MMLU, HumanEval, Chatbot Arena	LLM 选型
Agent	SWE-bench, τ-bench, WebArena	Agentic
向量检索	ANN-Benchmarks, VectorDBBench	ANN 选型
Embedding	MTEB, C-MTEB	Embedding 选型

建议的读法¶

按业务找：左边 Top 10 找到你最接近的业务
按访问模式反查：如果你业务不像任何一个典型，用分类框架 Axis 1 判断该走哪种栈
组件映射：从决策矩阵看你要哪些页深读
跑起来：Benchmark / Demo 索引里挑一个动手

延伸阅读¶

Data Mesh (Zhamak Dehghani) — 按业务域组织数据的观点
The AI Engineering Handbook (Chip Huyen) — 现代 AI 业务场景综述
Databricks / Snowflake 的业务场景 "Solution Accelerator" 系列博客
Netflix / Uber / Pinterest 各自的 Engineering Blog

E2E 业务场景全景¶

为什么要这一页¶

分类框架¶

两个正交轴¶

交叉矩阵¶

Top 10 主流业务场景¶

1. BI · 报表 · 仪表盘¶

2. 即席探索 / 数据科学 Notebook¶

3. 实时运营看板 / 监控告警¶

4. 企业 RAG · 知识库问答 · 客服¶

5. 多模检索 · 以图搜图 · 跨模态¶

6. 推荐系统 · 搜索 · 发现¶

7. 欺诈检测 · 风险控制¶

8. 用户分群 · CDP · 精细化运营¶

9. 经典 ML 预测 / 评分¶

10. Agentic 工作流 · 自动化¶

前沿场景（2024–2026）¶

Text-to-SQL / Semantic SQL¶

AI-native Analytics¶

近实时个性化¶

持续学习 / Online Learning¶

多模内容生成¶

科研数据平台¶

决策矩阵：场景 × 核心组件¶

Benchmark · Dataset · Demo 索引¶

建议的读法¶

相关¶

延伸阅读¶