跳转至

多模检索

Reference · 速查

本章组织

本章按 5 个子组:

外部权威:docs/references/retrieval/(HNSW / PQ / DiskANN / CLIP 等论文 · BEIR / MTEB benchmark · Pinecone Learning Center)。

本章聚焦 "向量检索(ANN)+ 稀疏检索 + 多模 embedding + 多模专题" · 覆盖:基础概念 · 多模架构模式 · 检索粒度 · ANN 索引 · 检索流水线 · 产品实现。

本章真正聚焦

本章大多数页面(ANN 索引 / Hybrid Search / Rerank 等)的基础骨架是通用文本向量检索——这些方法不能无条件平移到多模场景。多模检索的独有问题集中在:

  • 多模检索架构模式 · 文本检索主线 vs 跨模态检索主线的区分 · 6 种典型架构
  • 检索单元粒度 · retrieval unit / chunking 是多模独有的一等问题
  • 多模 Embedding · 跨模态对齐的原理 + 失败模式(不是"一空间统万物"那么乐观)
  • 检索评估 的 "多模评估" 段 · 文本 MTEB/BEIR 结论不能直接外推到多模

读者提示:学会 Hybrid Search + Rerank 不等于会做多模检索——跨模态场景下很多文本方法要重新评估。

和其他章节的边界

检索领域在湖仓手册里跨多个章节 · 本章职责明确:

章节 职责 和 retrieval 的关系
本章 retrieval/ 检索本身——embedding 如何存储 + ANN 索引如何建 + 相似度查询如何执行 核心
query-engines/ SQL 引擎做数据处理 · 包含"向量化执行"(SIMD 列批)和附属的"向量检索函数"(ClickHouse/StarRocks/DuckDB 2024+ 加的) 附属能力 · retrieval 更深做相似度查询主路径
lakehouse/multi-modal-lake 湖表如何承载多模数据 · 向量作为湖表的一个列类型的存储层 补本章 "检索" 侧 · 关注"存储侧承载"
pipelines/image-pipeline 等 4 页 生成 embedding 的管线 · 图/视/音/文档解析+向量化 生产侧 · retrieval 消费这些 embedding
ai-workloads/rag 检索做 RAG 应用 应用层 · retrieval 是基础设施

一句话:pipelines 生产 embedding → lakehouse / retrieval 存储 → retrieval 查询 → ai-workloads 消费。

学习路径 · 4 步

从"第一次做向量检索"到"能做生产选型"的 4 步路径

  1. 向量数据库 —— 先理解"把相似度检索作为一等公民的系统"是什么
  2. Embedding + 多模 Embedding —— AI 检索的"通用货币" · 选对模型决定上限
  3. ANN 索引三家 —— HNSW(最常见)/ IVF-PQ(规模/内存紧)/ DiskANN(十亿级 + SSD)+ Quantization(压缩策略)
  4. 生产主路径 —— Hybrid Search(稠+稀融合)→ Rerank(二阶段质量)→ 检索评估(监控指标)· 进阶看 Filter-aware ANN / Sparse Retrieval

核心概念

基础

  • 向量数据库 —— 把相似度检索作为一等公民的系统
  • Embedding —— AI 检索的通用货币 · 2026 模型矩阵 + Matryoshka + 选型
  • 多模 Embedding —— 跨模态对齐原理 + 失败模式(不是乐观版本)

多模专题 · 跨模态检索的核心设计

  • 多模检索架构模式 —— 6 种端到端架构 · 文本检索主线和跨模态检索主线的区分 · 多模融合策略
  • 检索单元粒度 —— retrieval unit / chunking granularity · 多模独有的一等问题

ANN 索引

  • HNSW —— 最常见的图索引
  • IVF-PQ —— 倒排 + 量化 · 亿级 + 内存预算紧
  • DiskANN —— 图索引落盘 · 十亿级 + SSD 友好
  • Quantization —— PQ / SQ / BQ / Matryoshka · 压缩策略横切

检索流水线

产品实现

  • Milvus —— 分布式 · 亿级到百亿级
  • LanceDB —— 嵌入式 + 湖原生 · 多模天然选项
  • Qdrant —— Rust 实现 · filter-aware 图搜索
  • Weaviate —— 自带向量化 + Reranker module
  • pgvector —— PostgreSQL 扩展 · 结构化主导场景最小路径

横向对比

团队决策