参考资料 · 多模检索 / 向量¶
Reference · 速查
ANN 算法论文¶
- Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs (2016/2018, paper - Malkov & Yashunin) —— HNSW 奠基论文,工业最广泛部署的 ANN 算法。工业验证。
- Product Quantization for Nearest Neighbor Search (2011, paper - Jégou et al.) —— PQ 量化基础。
- DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node (2019, paper - Microsoft) —— Disk-based ANN,10亿向量单机方案。
- FAISS: A Library for Efficient Similarity Search (2017, blog) —— Meta FAISS 库设计。
Embedding 与多模¶
- BGE: BAAI General Embedding (official-doc) —— 中文/多语言 SOTA 开源 embedding。
- Matryoshka Representation Learning (2022, paper - Kusupati et al.) —— 嵌套维度 embedding,可裁剪降维。
- CLIP: Learning Transferable Visual Models From Natural Language Supervision (2021, paper - OpenAI) —— 多模 embedding 奠基。
- SigLIP: Sigmoid Loss for Language Image Pre-Training (2023, paper - Google) —— 改进 CLIP 的对比学习损失。
Hybrid Search 与 Sparse¶
- BM25: Probabilistic Relevance Framework (2009, paper - Robertson & Zaragoza) —— 经典稀疏检索基础。
- SPLADE v3: New baselines for SPLADE (2024, paper) —— Learned sparse 最新版本。
- ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction (2021, paper - Stanford) —— Late interaction 方案。
- RRF: Reciprocal Rank Fusion outperforms Condorcet and individual Rank Learning Methods (2009, paper) —— Hybrid 融合的经典无参方法。
评估与 Benchmark¶
- BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models (2021, paper) —— 检索的标准 benchmark。
- MTEB: Massive Text Embedding Benchmark (official-doc) —— Embedding 模型综合 benchmark。
- MS MARCO (official-doc) —— passage / document ranking 标准数据集。
工业博客¶
- Pinecone Learning Center (blog) —— 向量检索入门到进阶系列。厂商主张(Pinecone 视角)但教学质量高。
- Anthropic - Introducing Contextual Retrieval (2024, blog) —— Contextual Retrieval 把检索失败率降低 35%(带可复现数据)。
- Vespa Blog - Search & Recommendation (blog) —— Vespa 团队的检索深度内容。
综述¶
- Dense Text Retrieval based on Pretrained Language Models: A Survey (2022, survey) —— Dense retrieval 综述。
- Large Language Models for Information Retrieval: A Survey (2023, survey) —— LLM 在 IR 中的应用综述。
待补:2026 ColBERT 后续 / Matryoshka 工业部署案例 / RAG 向量层最新综述