跳转至

数据来源与引用说明

Reference · 速查

面向内部技术工程师的阅读参考:手册内的数字 / 断言来自哪里、能不能直接用

数字的来源分级

遇到具体数字时,按来源分级判断可信度:

级别 特征 例子 怎么用
🔵 官方来源 官方 spec / 原作者论文 / 官方 benchmark Iceberg spec · Anthropic Contextual Retrieval 2024 可引用
🟢 公开博客 / 会议 2022+ 权威博客或会议演讲,有年份 "Netflix 全司 Iceberg 表 10 万+(Netflix Tech Blog 2022)" 了解量级 · 注意年份
🟡 经验估算 未标明来源的量级参考 "HNSW 1M × 768d 查询 p99 < 1ms" 心智模型 · 方案评审要自测
🔴 历史数据 2022 年前,已有版本变化未更新 "Uber Michelangelo 日训 5000+(2019-2020)" 仅历史视角

实务:手册多数具体数字是 🟢🟡 级。方案评审里引用前,核对原文或自家测试

手册遵循的原则

  • 辩证性:避免"最强 / 必选 / 事实标准"无条件断言;多页有"现实检视"段落区分工业验证 vs 仅论文
  • 时效:S/A 级页含 applies_to + last_reviewed;超过 6 个月建议复核
  • 可追溯:重要数字尽量标来源(逐步补齐中);延伸阅读优先官方 spec / 原论文
  • SSOT(单一事实源):核心概念有一个主页面,其他页精简引用 + 链接,避免独立演化

典型概念主页

概念 主页
PIT Join · Train-Serve Skew Feature Store
Hybrid Search Hybrid Search
Rerank Rerank
Snapshot · MVCC on Object Store Snapshot
Manifest · 元数据索引 Manifest
量级数字汇总 量级数字总汇

权威资源(优于本手册)

冲突时以下列为准。

协议 / spec

学术奠基

工业博客

独立观察

如何帮助改进

相关