0002. 选择 Iceberg 作为主表格式¶

Reference · 速查

背景¶

团队在多模一体化湖仓路线上需要选一个主表格式作为 BI 事实表和 AI 训练集的事实来源。候选：

采用 Apache Iceberg 作为主表格式；Paimon 作为流式 CDC 入湖的辅助格式共存。

协议中立与多引擎开放 —— 我们要同时服务 Spark 批、Trino 交互、Flink 流、DuckDB 开发；Iceberg 是当前对所有引擎支持最均衡的格式
Catalog 生态最丰富 —— Unity / Polaris / Nessie / Gravitino / HMS / Glue 全覆盖；未来切换 Catalog 无需换表格式
Schema / Partition Evolution 最成熟 —— 列 ID 机制 + hidden partitioning + 分区演化零重写
Puffin 侧车文件 —— 为向量索引下沉到湖表预留了标准口子，是一体化路线的关键前置
Apache 顶级 + 治理独立 —— 没有单一商业公司主导，长期风险最小
主力引擎（Spark / Trino）与 Iceberg 的集成最深

流式 CDC + 高频 upsert 场景 Iceberg 的 MoR 性能不如 Paimon。让这条路径独立走 Paimon：

正面：

负面：

后续：