数据来源与引用说明¶

Reference · 速查

面向内部技术工程师的阅读参考：手册内的数字 / 断言来自哪里、能不能直接用。

数字的来源分级¶

遇到具体数字时，按来源分级判断可信度：

级别	特征	例子	怎么用
🔵 官方来源	官方 spec / 原作者论文 / 官方 benchmark	Iceberg spec · Anthropic Contextual Retrieval 2024	可引用
🟢 公开博客 / 会议	2022+ 权威博客或会议演讲，有年份	"Netflix 全司 Iceberg 表 10 万+（Netflix Tech Blog 2022）"	了解量级 · 注意年份
🟡 经验估算	未标明来源的量级参考	"HNSW 1M × 768d 查询 p99 < 1ms"	心智模型 · 方案评审要自测
🔴 历史数据	2022 年前，已有版本变化未更新	"Uber Michelangelo 日训 5000+（2019-2020）"	仅历史视角

实务：手册多数具体数字是 🟢🟡 级。方案评审里引用前，核对原文或自家测试。

概念	主页
PIT Join · Train-Serve Skew	Feature Store
Hybrid Search	Hybrid Search
Rerank	Rerank
Snapshot · MVCC on Object Store	Snapshot
Manifest · 元数据索引	Manifest
量级数字汇总	量级数字总汇

冲突时以下列为准。