多模检索¶

Reference · 速查

本章组织

本章按 5 个子组：

基础概念：向量数据库 / Embedding / 多模 Embedding
多模专题：多模检索架构模式 / 检索单元粒度
ANN 索引：HNSW / IVF-PQ / DiskANN / Quantization
检索流水线：Hybrid Search / Sparse Retrieval / Filter-aware ANN / 跨模态查询 / Rerank / 评估
产品实现：Milvus / LanceDB / Qdrant / Weaviate / pgvector
横向对比：ANN 索引 / 向量库 / Embedding 模型 / Rerank 模型 / 稀疏检索

外部权威：docs/references/retrieval/（HNSW / PQ / DiskANN / CLIP 等论文 · BEIR / MTEB benchmark · Pinecone Learning Center）。

本章聚焦 "向量检索（ANN）+ 稀疏检索 + 多模 embedding + 多模专题" · 覆盖：基础概念 · 多模架构模式 · 检索粒度 · ANN 索引 · 检索流水线 · 产品实现。

本章真正聚焦

本章大多数页面（ANN 索引 / Hybrid Search / Rerank 等）的基础骨架是通用文本向量检索——这些方法不能无条件平移到多模场景。多模检索的独有问题集中在：

读者提示：学会 Hybrid Search + Rerank 不等于会做多模检索——跨模态场景下很多文本方法要重新评估。

和其他章节的边界

检索领域在湖仓手册里跨多个章节 · 本章职责明确：

章节	职责	和 retrieval 的关系
本章 retrieval/	检索本身——embedding 如何存储 + ANN 索引如何建 + 相似度查询如何执行	核心
query-engines/	SQL 引擎做数据处理 · 包含"向量化执行"（SIMD 列批）和附属的"向量检索函数"（ClickHouse/StarRocks/DuckDB 2024+ 加的）	附属能力 · retrieval 更深做相似度查询主路径
lakehouse/multi-modal-lake	湖表如何承载多模数据 · 向量作为湖表的一个列类型的存储层	补本章 "检索" 侧 · 关注"存储侧承载"
pipelines/image-pipeline 等 4 页	生成 embedding 的管线 · 图/视/音/文档解析+向量化	生产侧 · retrieval 消费这些 embedding
ai-workloads/rag	用检索做 RAG 应用	应用层 · retrieval 是基础设施

一句话：pipelines 生产 embedding → lakehouse / retrieval 存储 → retrieval 查询 → ai-workloads 消费。

学习路径 · 4 步¶

从"第一次做向量检索"到"能做生产选型"的 4 步路径

向量数据库 —— 先理解"把相似度检索作为一等公民的系统"是什么
Embedding + 多模 Embedding —— AI 检索的"通用货币" · 选对模型决定上限
ANN 索引三家 —— HNSW（最常见）/ IVF-PQ（规模/内存紧）/ DiskANN（十亿级 + SSD）+ Quantization（压缩策略）
生产主路径 —— Hybrid Search（稠+稀融合）→ Rerank（二阶段质量）→ 检索评估（监控指标）· 进阶看 Filter-aware ANN / Sparse Retrieval