多模一体化湖仓手册¶
面向数据湖上多模检索 + 多模分析(BI 与 AI 一体化)的工程手册。 目标:任一工程师 30 秒内找到一个概念、一个系统、一种对比、一条学习路径。
整体架构视图¶
一张图串起本手册所有章节 —— 自底向上:数据源 → 入湖 → 湖仓底座 → Catalog 治理平面 → 计算与检索 → 消费。
Mermaid 版本(可编辑、便于 diff 数据流)
flowchart BT
subgraph "数据源"
direction LR
oltp[(OLTP)]
log[(日志/事件)]
files[(多模文件<br/>图/音/视/PDF)]
end
subgraph "入湖"
direction LR
cdc[Flink CDC]
batch[Spark 批]
upload[对象上传]
end
subgraph "湖仓底座"
direction LR
storage[(对象存储<br/>S3/GCS/OSS)]
iceberg[(Iceberg / Paimon<br/>通用湖表)]
lance[(Lance<br/>多模 + 向量文件)]
puffin[/"Puffin<br/>(Iceberg 索引侧车)"/]
storage --- iceberg
storage --- lance
iceberg -.-> puffin
end
subgraph "Catalog(治理平面)"
cat[Unity / Polaris / Nessie<br/>表 + 向量 + 模型 + 权限]
end
subgraph "计算"
direction LR
trino[Trino · 交互]
spark[Spark · 批]
flink[Flink · 流]
duckdb[DuckDB · 开发]
star[StarRocks · 加速]
end
subgraph "检索 + AI"
direction LR
ann[ANN 索引]
hybrid[Hybrid Search]
rerank[Rerank]
llm[LLM Serving]
end
subgraph "消费"
direction LR
bi[BI · 仪表盘]
rag[RAG / Agent]
ml[ML 训练]
mm[多模检索]
end
oltp --> cdc
log --> batch
files --> upload
cdc --> iceberg
batch --> iceberg
upload --> lance
iceberg --> cat
lance --> cat
cat --> trino
cat --> spark
cat --> flink
cat --> duckdb
cat --> star
iceberg --> ann
lance --> ann
ann --> hybrid
hybrid --> rerank
rerank --> mm
rerank --> llm
trino --> bi
star --> bi
llm --> rag
spark --> ml
flink --> ml
按角色进入¶
按用途进入¶
-
比较两样东西 --- 全部对比 · 四大表格式 · 向量数据库 · ANN 索引 · Catalog 全景
-
具体问题速答 --- FAQ · 小文件怎么治、选哪个向量库、模型换代怎么办、一张表多种向量怎么建……
-
团队技术决策 --- ADR · 0001 站点框架、0002 Iceberg、0003 LanceDB、0004 Catalog、0005 引擎组合
-
参考查询 --- Iceberg §维护运维 · ANN 索引对比 · 向量数据库 §多引擎 SQL · Embedding 选型
或者,直接按你手头的具体事
- 选表格式 → 四大表格式对比 · ADR-0002
- 查询慢定位 → 性能调优 · 20 反模式 · 量级数字
- 已有数仓做 RAG → RAG · RAG on Lake 场景 · Embedding 流水线
- 平台权限 / 多租户 → 安全与权限 · 统一 Catalog 策略 · 多租户隔离
- 小文件治理 → Compaction · FAQ
- 选向量库 → 向量数据库对比 · ADR-0003
推荐主线:一体化架构¶
这是本手册的推荐主线,不是普适最优。纯 BI / 纯 OLTP / 纯 Classical ML 训练团队可以跳过整块;同时做"湖仓 + 向量检索 + 多模"的团队才需要把这里读透。
-
Lake + Vector 融合架构 --- 把向量检索做成湖的原住民的三种范式
-
多模数据建模 --- 一张湖表承载图 / 文 / 音 / 视 + 多种向量
-
跨模态查询 --- 一条 SQL 同时做结构化过滤 + 向量相似度
-
Compute Pushdown --- 把计算、UDF、模型推理下沉到湖
-
统一 Catalog 策略 --- 从"表注册中心"升级到"治理平面"
-
案例拆解 --- Databricks / Snowflake / Netflix / LinkedIn / Uber / Pinterest
领域地图¶
| 方向 | 说明 | 入口 |
|---|---|---|
| 基础 | 对象存储、文件格式、向量化执行、MVCC、一致性、谓词下推、存算分离 | foundations |
| 湖仓表格式 | 湖表 / Snapshot / Manifest / Schema & Partition Evolution / Compaction | lakehouse |
| 元数据 Catalog | Hive / REST / Nessie / Unity / Polaris / Gravitino | catalog |
| 查询引擎 | Trino / Spark / Flink / DuckDB / StarRocks / ClickHouse / Doris | query-engines |
| 数据管线 | 入湖、多模预处理(图/视/音/文档)、编排 | pipelines |
| 多模检索 | 向量 DB、ANN、Hybrid、Rerank、Embedding、多模对齐、评估 | retrieval |
| AI 负载 | RAG / Agent / Prompt / Feature Store / 微调数据 | ai-workloads |
| ML 基础设施 | Model Registry / Serving / Training / GPU | ml-infra |
| BI 负载 | OLAP 建模 / 物化视图 / 查询加速 | bi-workloads |
| 一体化架构 ⭐ | 湖 + 向量融合、多模建模(跨章组合视角) | unified |
| 工业案例 | Netflix / LinkedIn / Uber / 六家横比 | cases |
| 运维与生产 | 可观测性 / 性能 / 成本 / 安全 / 治理 / 迁移 / 排障 | ops |
精选主题¶
工程底座深化¶
- MCP · Model Context Protocol — Anthropic 2024 开放协议
- MLOps 生命周期 — 数据 → 训练 → 评估 → 上线 → 监控闭环
- 语义层 · Semantic Layer — dbt / Cube 指标中台
- LLM Gateway — LiteLLM / Portkey / Helicone 统一代理
- SLA · SLO · DRE — 数据产品可靠性工程
- TCO 模型 — 自建 vs 云 vs SaaS 真实成本
业务闭环(带问题进来先看)¶
- E2E 业务场景全景 — Top 10 + 前沿 + 决策矩阵
- 推荐系统深挖 · 欺诈检测 · CDP 分群 · Agentic 工作流 · Text-to-SQL 平台
选型决策(工业最常查)¶
- 量级数字总汇 — 湖仓 / 检索 / LLM 各场景量级参考
- 湖仓 20 反模式 — 上线前自查清单
- Feature Store 横比 · OLAP 加速副本 · 流处理引擎 · Rerank 模型 · 稀疏检索 · 调度系统
深度案例¶
2024-2026 新方向(各机制章 §前沿 / 深度页)¶
- RAG §4 高级范式 — Contextual Retrieval / CRAG / Self-RAG / Agentic RAG / GraphRAG
- LLM Inference — vLLM / SGLang / TRT-LLM / Dynamo / speculative
- Embedding · Matryoshka + Quantization · Quantization · Binary / SQ / PQ · Sparse · SPLADE / BM42
- AI 合规 — EU AI Act / NIST AI RMF / 中国生成式 AI 管理办法
- Guardrails + Red Teaming — 工程护栏 + 对抗测试
- Iceberg v3 — spec 2025-06 ratified · 引擎 rolling out
- Vendor Landscape — 客观厂商对比
跨向导航¶
- 横向对比
compare/— 16 大选型决策 - 场景指南
scenarios/— 10 个业务深挖 + 4 个架构视角 - 学习路径
learning-paths/— 4 条时间脚手架 - 按技术栈索引 — AWS / GCP / Azure / Databricks / Snowflake / 开源 / 国产化
- ADR
adr/— 团队技术决策记录 - FAQ — 跨目录速答
- 术语表 — 字母序兜底索引 · Changelog · 贡献指南
参与贡献¶
见 贡献指南。一句话流程:开 Issue 认领 → 按模板写页 → PR → CI 绿 + review 合格 → 自动发布。