跳转至

多模一体化湖仓手册

Reference · 速查

面向数据湖上多模检索 + 多模分析(BI 与 AI 一体化)的工程手册。 目标:任一工程师 30 秒内找到一个概念、一个系统、一种对比、一条学习路径。


整体架构视图

多模一体化湖仓整体架构 多模一体化湖仓整体架构

一张图串起本手册所有章节 —— 自底向上:数据源 → 入湖 → 湖仓底座 → Catalog 治理平面 → 计算与检索 → 消费

Mermaid 版本(可编辑、便于 diff 数据流)
flowchart BT
  subgraph "数据源"
    direction LR
    oltp[(OLTP)]
    log[(日志/事件)]
    files[(多模文件<br/>图/音/视/PDF)]
  end

  subgraph "入湖"
    direction LR
    cdc[Flink CDC]
    batch[Spark 批]
    upload[对象上传]
  end

  subgraph "湖仓底座"
    direction LR
    storage[(对象存储<br/>S3/GCS/OSS)]
    iceberg[(Iceberg / Paimon<br/>通用湖表)]
    lance[(Lance<br/>多模 + 向量文件)]
    puffin[/"Puffin<br/>(Iceberg 索引侧车)"/]
    storage --- iceberg
    storage --- lance
    iceberg -.-> puffin
  end

  subgraph "Catalog(治理平面)"
    cat[Unity / Polaris / Nessie<br/>表 + 向量 + 模型 + 权限]
  end

  subgraph "计算"
    direction LR
    trino[Trino · 交互]
    spark[Spark · 批]
    flink[Flink · 流]
    duckdb[DuckDB · 开发]
    star[StarRocks · 加速]
  end

  subgraph "检索 + AI"
    direction LR
    ann[ANN 索引]
    hybrid[Hybrid Search]
    rerank[Rerank]
    llm[LLM Serving]
  end

  subgraph "消费"
    direction LR
    bi[BI · 仪表盘]
    rag[RAG / Agent]
    ml[ML 训练]
    mm[多模检索]
  end

  oltp --> cdc
  log --> batch
  files --> upload
  cdc --> iceberg
  batch --> iceberg
  upload --> lance

  iceberg --> cat
  lance --> cat

  cat --> trino
  cat --> spark
  cat --> flink
  cat --> duckdb
  cat --> star

  iceberg --> ann
  lance --> ann
  ann --> hybrid
  hybrid --> rerank
  rerank --> mm
  rerank --> llm

  trino --> bi
  star --> bi
  llm --> rag
  spark --> ml
  flink --> ml

按角色进入

  • 数据工程师 --- 湖表、入湖、Compaction、性能调优 → 阅读清单

  • ML / AI 工程师 --- 向量检索、Embedding、RAG、多模管线、Agent → 阅读清单

  • 平台 / 基础设施 --- Catalog、治理、成本、可观测性、迁移 → 阅读清单

  • BI / 数据分析师 --- SQL、OLAP 建模、物化视图、加速 → 阅读清单


按用途进入

或者,直接按你手头的具体事


推荐主线:一体化架构

这是本手册的推荐主线,不是普适最优。纯 BI / 纯 OLTP / 纯 Classical ML 训练团队可以跳过整块;同时做"湖仓 + 向量检索 + 多模"的团队才需要把这里读透。


领域地图

方向 说明 入口
基础 对象存储、文件格式、向量化执行、MVCC、一致性、谓词下推、存算分离 foundations
湖仓表格式 湖表 / Snapshot / Manifest / Schema & Partition Evolution / Compaction lakehouse
元数据 Catalog Hive / REST / Nessie / Unity / Polaris / Gravitino catalog
查询引擎 Trino / Spark / Flink / DuckDB / StarRocks / ClickHouse / Doris query-engines
数据管线 入湖、多模预处理(图/视/音/文档)、编排 pipelines
多模检索 向量 DB、ANN、Hybrid、Rerank、Embedding、多模对齐、评估 retrieval
AI 负载 RAG / Agent / Prompt / Feature Store / 微调数据 ai-workloads
ML 基础设施 Model Registry / Serving / Training / GPU ml-infra
BI 负载 OLAP 建模 / 物化视图 / 查询加速 bi-workloads
一体化架构 湖 + 向量融合、多模建模(跨章组合视角) unified
工业案例 Netflix / LinkedIn / Uber / 六家横比 cases
运维与生产 可观测性 / 性能 / 成本 / 安全 / 治理 / 迁移 / 排障 ops

精选主题

工程底座深化

业务闭环(带问题进来先看)

选型决策(工业最常查)

深度案例

2024-2026 新方向(各机制章 §前沿 / 深度页)


跨向导航


参与贡献

贡献指南。一句话流程:开 Issue 认领 → 按模板写页 → PR → CI 绿 + review 合格 → 自动发布