跳转至

Benchmark 参考 · 量级数字总汇

Reference · 速查进阶

一句话定位

两用一页 · 上半是 Benchmark 体系索引(选型参照系哪儿找)· 下半是 量级数字总汇(团队决策时"心里有数")。量级参考(数量级 ~ ±2-5×)· 非精确 benchmark · 自家数据跑过才算数。

使用方法

  • 数字仅为数量级(上下浮动 2-5× 常见)
  • 自家业务 benchmark 永远是最终依据
  • 版本升级 / 硬件迭代 / 数据分布都会带来显著变化
  • 本页每半年 review 一次 · 数字来源见每段标注

可信度标注: - 🔵 引自官方 spec / benchmark - 🟢 公开博客 / 论文(注明来源) - 🟡 经验估算(多家工程师共识的量级)

0. Benchmark 体系索引

0.1 湖仓 / OLAP

Benchmark 测什么 主要规模 备注
TPC-DS 决策支持(多表 join) 100GB / 1TB / 10TB OLAP 长期主流 benchmark
TPC-H 仓库查询 1GB - 10TB 较早的标准
SSB(Star Schema Benchmark) 星型模式 灵活 小而美
ClickBench 单表查询 100M 行 Hits 数据 ClickHouse 倡导 · 单表密集
tpch-tools / duckdb-benchmarks 引擎对比 多规模 常见用于公开对比

0.2 向量检索

Benchmark 测什么 规模 备注
ANN-Benchmarks 各 ANN 算法 1M - 1B 向量 最权威
Big-ANN-Benchmarks 十亿级 1B - 10B 学界 + 工业
VectorDBBench (Zilliz) 向量 DB 端到端 千万 - 亿 跨系统 benchmark
MTEB Retrieval 基于 embedding 的检索 多领域 评估 embedding 模型

0.3 Embedding 模型

Benchmark 测什么 语种
MTEB(Massive Text Embedding Benchmark) 56 个任务 多语 · 英语为主
C-MTEB MTEB 中文版 中文
MMTEB 多语言扩展 100+
BEIR 检索专项 英语

0.4 LLM

Benchmark 测什么 备注
MMLU 57 学科常识 英语通识
C-Eval / C-MMLU 中文通识 中文
GSM8K 数学推理
HumanEval / MBPP 代码 Python
HELM 综合框架 不是单一 benchmark
LMSys Chatbot Arena 人工 ELO 最贴近真实体验

0.5 RAG 评估

Benchmark / 工具 测什么
RAGAS 内置指标 Groundedness / Context Relevance / Answer Relevance
BEIR / MTEB Retrieval 检索阶段
MS MARCO 问答语料
Natural Questions 问答
RGB RAG 鲁棒性专项

0.6 读 benchmark 的三条原则

  1. 看绝对数字无意义 —— 硬件 / 配置 / 数据分布都影响。看相对顺序差距幅度
  2. 找"测评负载和你负载接近"的 benchmark —— 你做点查就别看 TPC-DS 的大 shuffle 分数
  3. 复现关键几个 —— 自己跑得通 · 才能排除 cherry-pick

0.7 自家 benchmark 建议

  • 固化 Golden Set(100-500 条真实 query)
  • 每次选型 / 升级都跑一遍
  • 结果入表:
    benchmark_run_id | engine | config | metric | value | ts
    
  • 定期 review · 识别退化

1. 湖仓 / 表格式

Iceberg

指标 规模 典型值 来源
提交延迟(单 CAS) - 50-500ms Iceberg 社区
Planning(10M 数据文件) - 数百 ms - 几秒 Netflix 博客
Planning vs Hive LIST 10k 分区 Iceberg 快 50-100× Netflix 迁移数据
最大单表规模 - PB 级 Netflix / Apple
Snapshot 数(健康表) - 100-1000 社区建议
metadata.json 大小(10k snapshot) - 几 MB 估算

Paimon

指标 规模 典型值
CDC 主键表写吞吐 单 Flink 作业 10k-100k rows/s
流读延迟(commit → 可见) - 30s-2min
端到端延迟(CDC → 可查) 生产 1-5 分钟
Compaction 吞吐 后台 100+ MB/s

对象存储

操作 S3 典型延迟
GET 单 object(小) 20-50ms
PUT 单 object 30-100ms
LIST 1000 objects 50-200ms
Multi-part upload(100MB) 1-3s
跨 region 复制 秒-分钟

2. 查询引擎

TPC-DS 100 参考时间(10 node × 64 core hardware)

引擎 总时间(99 queries)
Trino 450 15-20 分钟
Spark 3.5 + AQE 30-40 分钟
StarRocks 3.3 8-12 分钟
ClickHouse 10-15 分钟(单表强)
Databricks Photon 10-15 分钟
DuckDB 单机 1 TB 数据 OK、10 TB 吃力

Trino 典型交互查询

场景 p50 p95
仪表盘(聚合,走 MV) 200ms 1s
即席查询(中等 join) 1-5s 15s
大规模扫描(TB 级) 10-60s 3-5 min

Spark 典型 ETL

操作 吞吐
Parquet 扫描 200-500 MB/s / executor
Shuffle 写 100-200 MB/s / executor
Iceberg 写入 50-150 MB/s / executor
Join(AQE + Broadcast) 10 亿 × 1 亿: 10-30 分钟
操作 规模 吞吐 / 延迟
Map-only 流 单 TM 4 core 100k+ events/s
Stateful KeyBy 1M keys state 10-50k events/s / slot
Window 聚合 - 50k-200k events/s / slot
Checkpoint 10GB state 30s-2min
端到端延迟(实时大屏) 秒级 commit 1-5 秒

DuckDB 单机

数据规模 性能
< 100 GB 亚秒-秒级
100 GB - 1 TB 5-30s
1 TB Iceberg 扫描 5-15 min
分区裁剪后 快 10×+

3. OLAP 加速副本

StarRocks / Doris

场景 延迟
仪表盘(走 MV) < 500ms
高并发聚合 p99 < 1s
SSB Benchmark 比 ClickHouse 快 1-2×(Join 场景)

ClickHouse

场景 延迟
单表聚合 10亿行 秒级
单表 TopN 极快
复杂 Join 明显慢于 StarRocks
ClickBench 常年 top 1-3

Druid / Pinot

场景 延迟
实时聚合大屏 p99 < 200ms
Rollup 预聚合查询 < 100ms
支持的 Schema 变化

4. 向量检索

HNSW 延迟(典型)

数据集 规模 M=16, ef=40 Recall@10
SIFT-1M 1M × 128d 0.2 ms 99%
DEEP-10M 10M × 96d 0.8 ms 99%
DEEP-100M 100M × 96d 3-8 ms 98%
1B 向量 - ⚠️ 需 DiskANN -

内存估算

规模 × 维度 内存(HNSW M=32)
1M × 768 float32 3 GB
10M × 768 30 GB
100M × 768 300 GB(需分布式或量化)

向量库典型 QPS(单节点)

系统 QPS
Milvus HNSW 5k-20k
LanceDB 嵌入式 10k+
pgvector 1k-5k
Qdrant 5k-15k

5. Embedding / RAG

Embedding 模型吞吐(A100)

模型 参数 吞吐
BGE-small 33M 20k tokens/s
BGE-base 110M 10k tokens/s
BGE-large 335M 3k tokens/s
OpenAI text-embedding-3(API) - 延迟 100-300ms / request

Rerank 延迟(A100)

模型 10 候选 50 候选 100 候选
bge-reranker-base 10ms 40ms 80ms
bge-reranker-large 30ms 80ms 150ms
Cohere Rerank 3 (API) 100ms 200ms 300ms

LLM 推理(H100 单卡)

模型 吞吐(tokens/s)
Llama-3-8B 5000-8000
Llama-3-70B (fp16) 200-300
Llama-3-70B (AWQ int4) 500-800
Llama-3-70B (fp8) 700-1000
Mixtral-8x7B (MoE) 800-1500(激活少)

RAG 延迟分解(典型)

Query embed:       50ms
Hybrid retrieve:  150ms
Rerank:           100ms
Prompt + first token: 400ms
Stream to finish: 1000ms
──────
Total p95:        1.5-2s

6. 检索评估指标(BEIR)

管线 Recall@10 NDCG@10
BM25 0.50 0.43
Dense (BGE-large) 0.55 0.47
Hybrid (RRF) 0.62 0.53
Hybrid + bge-reranker 0.70 0.60
Hybrid + Contextual + Rerank 0.75+ 0.67+

7. MLOps / 训练

XGBoost 训练基线

样本数 × 特征 硬件 时间
100k × 100 CPU < 1 min
1M × 100 CPU 3-10 min
10M × 100 GPU 30-60 min
100M × 1000 多 GPU 2-4 hr

LLM 微调(LoRA)

模型 数据规模 GPU × 时间
Llama-8B 10k samples 1 × A100 × 2hr
Llama-70B 10k samples 8 × A100 × 12hr
Qwen-72B 100k samples 16 × H100 × 48hr

训练数据吞吐

操作 典型
Parquet → DataLoader 100-500 MB/s
PIT Join(Spark) 100M 样本 × 20 FV ≈ 30 分钟
Feast Materialization 10k-100k rows/s

8. Feature Store

操作 基线
单 entity get_online 2-10ms
100 entity batch get 20-50ms
PIT Join(Spark 100M) 30 分钟
Materialize 吞吐 10k-100k rows/s
Online KV QPS 10k+ 起步

9. Kafka / 消息

操作 典型
单 broker 吞吐 100 MB/s(写)· 150 MB/s(读)
生产者 latency 2-10ms
消费 lag(健康) < 秒
单主题 partition 数 几百 OK · 上万需谨慎

10. 成本参考(月)

规模 典型月成本
Snowflake 50 TB $10k-30k
BigQuery 50 TB $5k-20k
自建 Trino + Iceberg 50 TB $3k + 1 工程师
Databricks 500 TB $50k-200k
自建 PB 级 Lakehouse $150k-500k + 10 人团队

11. 注意与免责

  • 数字量级参考不等于精确基准
  • 环境因素:云 vs 本地、SSD vs HDD、网络、压缩率
  • 版本差异:Trino / Spark / Milvus 每半年性能进化
  • 硬件换代:H100 比 A100 2-3×;B200 又 2×

最终建议:自家复现关键 benchmark是唯一可靠的办法。


12. 版本参考 · Versions Reference

SSOT · 版本基线

手册内各章节的 applies_to 写的是"最低支持版本"(长期兼容基线)。本节记录 2026-04 截至的"当前参考版本"(写示例 / 估算 benchmark 时用的版本)。升级主流版本时只改这一处,各页 applies_to 只在 API / 行为变化时再跟进。

分类 组件 2026-04 参考版本 手册最低 applies_to
表格式 Apache Iceberg 1.7.x · spec v2(v3 起草中) 1.4+ / v2
Apache Paimon 1.0 GA(1.1 开发中) 0.9+
Apache Hudi 1.0 0.14+
Delta Lake 4.0 3.2+
查询引擎 Trino 465+ 450+
Spark 4.0(3.5 仍广泛) 3.5+
Flink 1.20(2.0 开发中) 1.18+
Flink CDC 3.x 3.0+
StarRocks 3.4+ 3.0+
Doris 3.0+ 2.1+
向量库 Milvus 2.5 2.4+
LanceDB 0.13+ 0.8+
Qdrant 1.12+ 1.10+
Weaviate 1.27+ 1.25+
pgvector 0.8+ 0.7+
AI / RAG Feast 0.42+ 0.40+
vLLM 0.7+ 0.6+
SGLang 0.4+ 0.3+
MCP (协议) 1.x 1.0
Embedding BGE-M3 · gte-Qwen2 · jina-v3 · voyage-3

使用约定

  • 新写内容用"参考版本"做示例(保持新鲜)
  • 老页的 applies_to 保留"最低版本"(除非破坏性变化才抬高)
  • PR 中涉及版本号时,先改本表、再改各页

相关

延伸阅读