多模检索¶
Reference · 速查
本章组织
本章按 5 个子组:
- 基础概念:向量数据库 / Embedding / 多模 Embedding
- 多模专题:多模检索架构模式 / 检索单元粒度
- ANN 索引:HNSW / IVF-PQ / DiskANN / Quantization
- 检索流水线:Hybrid Search / Sparse Retrieval / Filter-aware ANN / 跨模态查询 / Rerank / 评估
- 产品实现:Milvus / LanceDB / Qdrant / Weaviate / pgvector
- 横向对比:ANN 索引 / 向量库 / Embedding 模型 / Rerank 模型 / 稀疏检索
外部权威:docs/references/retrieval/(HNSW / PQ / DiskANN / CLIP 等论文 · BEIR / MTEB benchmark · Pinecone Learning Center)。
本章聚焦 "向量检索(ANN)+ 稀疏检索 + 多模 embedding + 多模专题" · 覆盖:基础概念 · 多模架构模式 · 检索粒度 · ANN 索引 · 检索流水线 · 产品实现。
本章真正聚焦
本章大多数页面(ANN 索引 / Hybrid Search / Rerank 等)的基础骨架是通用文本向量检索——这些方法不能无条件平移到多模场景。多模检索的独有问题集中在:
- 多模检索架构模式 · 文本检索主线 vs 跨模态检索主线的区分 · 6 种典型架构
- 检索单元粒度 · retrieval unit / chunking 是多模独有的一等问题
- 多模 Embedding · 跨模态对齐的原理 + 失败模式(不是"一空间统万物"那么乐观)
- 检索评估 的 "多模评估" 段 · 文本 MTEB/BEIR 结论不能直接外推到多模
读者提示:学会 Hybrid Search + Rerank 不等于会做多模检索——跨模态场景下很多文本方法要重新评估。
和其他章节的边界
检索领域在湖仓手册里跨多个章节 · 本章职责明确:
| 章节 | 职责 | 和 retrieval 的关系 |
|---|---|---|
| 本章 retrieval/ | 检索本身——embedding 如何存储 + ANN 索引如何建 + 相似度查询如何执行 | 核心 |
| query-engines/ | SQL 引擎做数据处理 · 包含"向量化执行"(SIMD 列批)和附属的"向量检索函数"(ClickHouse/StarRocks/DuckDB 2024+ 加的) | 附属能力 · retrieval 更深做相似度查询主路径 |
| lakehouse/multi-modal-lake | 湖表如何承载多模数据 · 向量作为湖表的一个列类型的存储层 | 补本章 "检索" 侧 · 关注"存储侧承载" |
| pipelines/image-pipeline 等 4 页 | 生成 embedding 的管线 · 图/视/音/文档解析+向量化 | 生产侧 · retrieval 消费这些 embedding |
| ai-workloads/rag | 用 检索做 RAG 应用 | 应用层 · retrieval 是基础设施 |
一句话:pipelines 生产 embedding → lakehouse / retrieval 存储 → retrieval 查询 → ai-workloads 消费。
学习路径 · 4 步¶
从"第一次做向量检索"到"能做生产选型"的 4 步路径
- 向量数据库 —— 先理解"把相似度检索作为一等公民的系统"是什么
- Embedding + 多模 Embedding —— AI 检索的"通用货币" · 选对模型决定上限
- ANN 索引三家 —— HNSW(最常见)/ IVF-PQ(规模/内存紧)/ DiskANN(十亿级 + SSD)+ Quantization(压缩策略)
- 生产主路径 —— Hybrid Search(稠+稀融合)→ Rerank(二阶段质量)→ 检索评估(监控指标)· 进阶看 Filter-aware ANN / Sparse Retrieval
核心概念¶
基础¶
- 向量数据库 —— 把相似度检索作为一等公民的系统
- Embedding —— AI 检索的通用货币 · 2026 模型矩阵 + Matryoshka + 选型
- 多模 Embedding —— 跨模态对齐原理 + 失败模式(不是乐观版本)
多模专题 · 跨模态检索的核心设计¶
- 多模检索架构模式 —— 6 种端到端架构 · 文本检索主线和跨模态检索主线的区分 · 多模融合策略
- 检索单元粒度 —— retrieval unit / chunking granularity · 多模独有的一等问题
ANN 索引¶
- HNSW —— 最常见的图索引
- IVF-PQ —— 倒排 + 量化 · 亿级 + 内存预算紧
- DiskANN —— 图索引落盘 · 十亿级 + SSD 友好
- Quantization —— PQ / SQ / BQ / Matryoshka · 压缩策略横切
检索流水线¶
- Hybrid Search —— 稠密 + 稀疏融合(RRF / convex combination)
- Sparse Retrieval —— BM25 / SPLADE / BM42 独立
- Filter-aware ANN —— 结构化谓词 + 向量 组合查询
- Rerank —— 两阶段的第二阶段 · 决定最终质量
- 检索评估 —— Recall@K / MRR / nDCG / BEIR / MTEB
产品实现¶
- Milvus —— 分布式 · 亿级到百亿级
- LanceDB —— 嵌入式 + 湖原生 · 多模天然选项
- Qdrant —— Rust 实现 · filter-aware 图搜索
- Weaviate —— 自带向量化 + Reranker module
- pgvector —— PostgreSQL 扩展 · 结构化主导场景最小路径