参考资料 · 湖仓 / 表格式¶
Reference · 速查
论文¶
- Lakehouse: A New Generation of Open Platforms (2021, paper) —— Databricks 团队 CIDR 2021,奠定 "Lakehouse 范式" 概念框架。厂商主张(Databricks)但论文本身已被广泛引用。
- Apache Iceberg: An Architectural Look Under the Covers (2021, blog/whitepaper) —— Dremio 视角的 Iceberg 架构剖析。
- Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores (2020, paper) —— VLDB 2020,Delta Lake 的奠基论文。厂商主张(Databricks)。
- Apache Hudi - The Data Lake Platform (2021, blog) —— Uber 团队对 Hudi 设计哲学的总结。
- Apache Paimon: A Stream-Lake Storage System (2024+, official-doc) —— Paimon 官方设计文档,LSM on object store。
官方文档与 Spec¶
- Apache Iceberg Documentation (official-doc) —— 顶级分类:Tables(含 Branching/Config/Evolution/Maintenance/Performance/Reliability/Schemas/Partitioning)/ Catalogs / Storage / Migration / Integrations。与本 wiki lakehouse/ 章节组织对齐。
- Iceberg Table Spec v2/v3 (official-doc) —— v2 已 ratified,v3 incubating(含 Variant / Geometry / Row Lineage 等)。
- Delta Lake Protocol (official-doc) —— Delta 的开源协议 spec。
- Apache Iceberg REST Catalog Spec (official-doc) —— REST 协议事实标准。
- Puffin Spec (official-doc) —— Iceberg 索引侧车格式。
经典工业博客¶
- Netflix Tech Blog - Iceberg Series (blog) —— Iceberg 诞生地的实战博客。工业验证。
- Tabular - The Iceberg Ecosystem (blog, 2024 已被 Databricks 收购) —— Iceberg 生态深度内容。
- Apple - Iceberg at Scale (blog) —— 大规模 Iceberg 工业实践。
综述 / 教科书¶
- Designing Data-Intensive Applications (2017, book - Kleppmann) —— 第三章存储与检索是湖表理解的基础。
- The Data Engineering Lifecycle (2022, book) —— Joe Reis & Matt Housley,含 Lakehouse 章节。
待补 / 关注¶
- Iceberg v3 GA 后的新版 spec 解读
- Delta Lake 4.0 协议变更
- Paimon 2.0 后的流批一体演进
贡献:发现新权威 PR 加条目,按主页格式:- **[标题](URL)** _(年份, 类型)_ —— 价值描述。