0003. 多模向量存储选 LanceDB（辅以 Milvus）¶

Reference · 速查

背景¶

团队的一体化湖仓路线要求向量数据和湖表共生，不想长期维护两套存储。主要候选：

多模场景主用 LanceDB；大规模 / 高 QPS 在线检索辅以 Milvus。

湖原生 —— 数据以 Lance 格式直接落对象存储，和 Iceberg / Parquet 在同一个 bucket；没有"向量库和湖两份数据"的同步痛点
多模原生 —— 二进制字段 + 向量列 + 元数据一表处理，天然适合我们的 multimodal_assets 表设计
嵌入式 —— 没有独立集群要运维；任何 Spark / Python / Ray 作业都能直接读
Lance format —— 随机访问友好，训练时打乱洗牌成本低
和 Iceberg 可共生 —— 路线图指向 "一张 Iceberg 表能被 LanceDB 当向量表读"
开源 + 商业支持 —— OSS 加 LanceDB Cloud 托管，不绑死

LanceDB 的嵌入式形态在极高并发 + 严苛 p99 延迟下需要自己做服务化包装。Milvus 天生分布式、集群成熟，亿级以上向量 + 千 QPS 以上场景仍是它的主场。

在线 RAG / 多模检索服务预期会到这个规模，提前留好迁移路径。

路线上最终会到这里，但当前状态： - Puffin 向量索引 blob 类型在社区化进展中，协议未稳定 - 生产级引擎支持（Trino / Spark 读 Puffin 向量索引）仍需等待 - LanceDB 今天能完成同样的诉求

计划 12 个月后重新评估切换。

对小规模 + 结构化主导场景依旧推荐，但不适合多模主线（PG 不是对象存储原生、二进制资产管理弱）。

正面：

负面：

后续：