Embedding 模型横比¶

Reference · 速查进阶

读完能回答的选型问题

我做中英文 / 多模检索 / RAG，应该选 BGE、E5、Jina、OpenAI 还是 Cohere？要看规模、成本、语言支持、开源 vs API。

对比维度总表¶

维度	BGE-v2-m3	E5-large-v2	Jina-v3	OpenAI text-embed-3	Cohere embed v3
开源 / API	开源	开源	开源 + 托管	API only	API only
语种	多语（中英强）	多语	100+ 种	100+ 种	100+ 种
维度	1024	1024	1024（Matryoshka）	1536 / 3072（可截）	1024
max tokens	8192	512（经 fine-tune 可扩）	8192	8191	512
检索精度（MTEB）	顶级（zh/en）	较强	顶级（多语）	顶级	顶级
稀疏 + Dense + ColBERT 三合一	✅（m3 特色）	❌	部分	❌	❌
Rerank 配套	BGE-reranker 系列	需外挂	Jina reranker	需外挂	Cohere rerank
延迟（单条）	~20ms（GPU）	~20ms（GPU）	~15ms / API 网络	API 网络（50–200ms）	API 网络
成本	自托管 GPU 成本	自托管	自托管或 API	API 按 token 付	API 按 token 付
商用许可	MIT	MIT	Apache 2.0	合规自查	合规自查

每位选手的关键差异¶

BGE（BAAI General Embedding）¶

由北京智源研究院开源，中英文检索上几乎是默认选项。v2-m3 是一个同时产出 Dense / Sparse / ColBERT-style 三种表示的模型，一个模型能喂 Hybrid Search 的全部三路。

甜区：中英混合、开源 + 自托管、搭配 BGE Reranker
坑：模型 2GB+，部署要 GPU

E5（Microsoft）¶

Microsoft 开源，多语言 + 通用检索强。对零样本场景和指令跟随做得早。MTEB 早期领先，现在被 BGE / Jina 追平。

甜区：通用场景、学术实验
坑：对中文不如 BGE 精细；长文超过 512 tokens 需 fine-tune 版本

Jina Embeddings¶

Jina AI（初创公司）开源。v3 支持 100+ 语言 + Matryoshka + 8K 上下文，商业友好。

甜区：多语言、长文、需要维度可裁（Matryoshka）
坑：中文相对 BGE 略弱；托管 API 生态在建

OpenAI text-embedding-3-*¶

small（1536 维）/ large（3072 维，可截到更低）
闭源 API 付费；精度一流
甜区：团队不想自建 GPU 栈 + 预算合适 + 不敏感
坑：数据出口 / 合规 / 成本

Cohere embed v3¶

Canadian 公司，商用云服务。对 RAG 场景专门优化，和 Cohere Rerank 组合成熟。

甜区：企业级 API + RAG 全家桶
坑：闭源 API、合规、成本

选型决策树¶

flowchart TD
  q1{数据能否出网?} -->|否| local[自托管 开源]
  q1 -->|可| q2{预算宽松?}
  q2 -->|是| api[API 系 OpenAI / Cohere]
  q2 -->|否| local
  local --> q3{中英为主?}
  q3 -->|是| bge[BGE-v2-m3]
  q3 -->|否多语| jina[Jina v3]
  local --> q4{要 Hybrid 三合一?}
  q4 -->|是| bge2[BGE-v2-m3]
  q4 -->|否| e5[E5]

多模场景¶

上表都偏文本 embedding。多模场景主力是 CLIP / SigLIP / Jina-CLIP，见多模 Embedding。

通常一个多模表同时有两种： - CLIP / SigLIP 做跨模态（图⇄文） - BGE / Jina 做长文精细

实操经验¶

benchmark 别信官方：用自家数据跑 golden set
先跑"精排（rerank）+ 中档 embedding"：比"顶级 embedding 不 rerank"质量更高、成本更低
中英混排业务强烈推荐 BGE-v2-m3
模型切换有成本：见 Embedding 流水线的模型版本治理

延伸阅读¶

MTEB 榜单: https://huggingface.co/spaces/mteb/leaderboard
各模型官方 paper / 技术博客
Massive Text Embedding Benchmark (MTEB) 原始论文