Iceberg vs Paimon vs Hudi vs Delta¶

Reference · 速查资深

读完能回答的选型问题

四大湖表格式，我在 BI 为主 / 流式 upsert 为主 / Databricks 生态 / 多引擎开放 四种场景下到底该选哪个？2024-2025 年生态格局有重大变化（Databricks 收购 Tabular、Paimon Apache 毕业、Uniform 生态），需要重新审视。

TL;DR

Iceberg = 多引擎中立 · REST Catalog 生态成熟 · 2024+ 事实上的"行业通用协议"
Paimon = Flink + 流式 upsert 原生 · 2023 Apache 毕业 · 国内生态活跃
Hudi = Spark 生态 + Incremental Query 历史强 · Uber 规模化验证 · 新项目采用放缓
Delta Lake = Databricks 深度集成 · Uniform 向 Iceberg 靠拢 · 2024 收购 Tabular 是关键信号
2026 主流共识：新项目优先 Iceberg + 流场景配 Paimon；已有栈渐进演化

对比维度总表¶

维度	Iceberg	Paimon	Hudi	Delta
主要生态	多引擎中立	Flink 中心	Spark 中心	Databricks 中心
批分析	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐
流式 upsert	⭐⭐⭐（v2 delete file）	⭐⭐⭐⭐⭐（LSM 原生）	⭐⭐⭐⭐	⭐⭐⭐
CDC / Changelog	增量读（snapshot diff）	原生 4 种 changelog producer	Incremental Query	CDF（Change Data Feed）
架构思路	Manifest + Snapshot	LSM + Manifest	Timeline + CoW/MoR	事务日志 + checkpoint
Schema Evolution	⭐⭐⭐⭐⭐（列 ID）	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
Row-Level Delete	v2 Position + Equality · v3 Deletion Vector	Delete File	CoW 重写 / MoR log	v3+ Deletion Vectors
Catalog 生态	最多（HMS/REST/Nessie/Unity/Polaris/Glue）	Flink / Hive / REST	Hive / Glue	Databricks UC / HMS
多引擎开放	⭐⭐⭐⭐⭐	⭐⭐⭐（Flink/Spark/Trino OK）	⭐⭐⭐	⭐⭐⭐（Uniform 改善中）
社区治理	Apache · Netflix/Apple/LinkedIn 共治	Apache · 阿里主导	Apache · Onehouse 主推	LF AI · Databricks 单一主导
AI / 多模扩展	高（Puffin + Lance 融合）	中（LSM 适合流）	中	高（Databricks 生态）
商业化主推	Tabular（2024.06 被 Databricks 收购）· Snowflake · AWS	阿里 / Ververica / 国内云厂	Onehouse	Databricks
2025+ 活跃度	🔥🔥🔥 极活跃	🔥🔥 快速发展	🔥 相对放缓	🔥🔥 受 Uniform 推动

2024-2025 重大事件¶

1. Databricks 收购 Tabular（2024.06）¶

Ryan Blue（Iceberg 创始人）+ Daniel Weeks + Jason Reid 团队整体加入 Databricks
信号：Databricks 承诺长期支持 Iceberg、推动 Delta + Iceberg 协议融合
影响：独立 Iceberg 托管生态缺一块；但 Iceberg 开源协议被更大力量推动
Uniform 进一步发展：Delta 表可被 Iceberg 读取器识别

2. Paimon Apache 顶级项目毕业（2024.03）¶

从 Flink 子项目独立
国内大厂（阿里、字节、腾讯）深度投入
2024 下半年 1.0 GA
流批一体 + 高频 upsert 场景渐成首选

3. Iceberg v3 spec 推进（2024-2025）¶

Deletion Vectors · Row Lineage · Multi-Table Transaction · Geo / Variant 类型
2025 Q2 预计社区投票
和 Delta v4 的协议融合是长期趋势
详见 Iceberg v3 · spec 演进与采用

4. Hudi 相对降速¶

仍然稳定、Uber 规模生产
但新项目采用率被 Iceberg / Paimon 稀释
Onehouse 商业化聚焦"多表格兼容层"而非单推 Hudi

每位选手的关键差异¶

Iceberg（2024+ 行业通用协议）¶

定位演进：从"Netflix 内部工具"（2018）→"Apache 顶级"（2020）→"行业通用表格式协议"（2024+）。

核心优势： - 协议中立：REST Catalog 把"表是什么"标准化 - 多 Catalog 选项：HMS / REST / Nessie / Polaris / Unity / Glue - v3 spec 带来 Deletion Vector + Multi-Table Transaction + Row Lineage - Puffin 为向量 / sketch 扩展预留口子 - 被所有主流商业厂商拥抱：Snowflake Polaris · Databricks（收购 Tabular）· AWS Glue · Google BigLake

边界： - 流式 upsert 不如 Paimon 原生 - v3 尚未稳定，生产采用要谨慎

Paimon（流一体原生 · 国内生态首选）¶

定位演进：从 Flink Table Store（2022）→ Apache 顶级（2024）。

核心优势： - LSM on Object Store 天然支持高频 upsert - 4 种 Changelog Producer（input/lookup/full-compaction/none）给下游流处理灵活度 - 流批一体：同一表 Flink 流 + Trino 批查 - 阿里 / 字节 / 腾讯 深度投入，国内生态活跃

边界： - 社区以 Flink 为中心（Spark / Trino 支持成熟但不如 Iceberg） - 相对 Iceberg 生态广度仍有差距 - Catalog 生态主要还是 Hive / REST（Unity / Polaris 集成相对弱）

Hudi（Spark 生态老将）¶

定位演进：从 Uber 2017 开源 → 2020 Apache 顶级 → 2024 相对"成熟稳定期"。

核心优势： - 三种查询类型（Snapshot / Read-Optimized / Incremental） - Record-level Index（1.0+）加速主键定位 - CoW / MoR 双模 灵活 - Uber 规模化验证（PB 级生产）

边界： - 新项目采用率放缓，被 Iceberg + Paimon 蚕食 - Multi-Writer 需外部 lock（ZK / DynamoDB）—— 不如 Iceberg CAS 优雅 - 多引擎支持：Trino / Flink 不如 Spark 完整 - Onehouse 也承认"多表格兼容"比单押 Hudi 更务实

Delta Lake（Databricks 深度 · Uniform 拥抱 Iceberg）¶

定位演进：Databricks 2019 开源 → LF AI 托管 → 2024 收购 Tabular 后深度拥抱 Iceberg。

核心优势： - Databricks Runtime + Photon 最优性能 - Unity Catalog 深度集成（血缘 / 治理完整） - Deletion Vectors + Liquid Clustering 工业级成熟 - Uniform：一张 Delta 表可被 Iceberg 客户端读

边界： - Databricks 生态外相对弱（开源 Spark 的 Delta 和 Databricks Runtime 有功能差距） - 商业主导：社区治理不如 Iceberg / Paimon 中立 - 长期问题：Delta vs Iceberg 的协议融合未完成，未来可能"被收敛"到 Iceberg 主导

决策矩阵（2026 实务）¶

按场景选¶

场景	首选	备选 / 互补
新项目 BI + 多引擎	Iceberg	—
流式 CDC 入湖 + 准实时 BI	Paimon	Iceberg v2 MoR
流热表 + 批冷表	Paimon 热 + Iceberg 冷（共 Catalog）	—
已在 Databricks 深度栈	Delta	关注 Uniform 过渡
多云 / 跨厂商 · 避免锁定	Iceberg	—
已有 Hudi 生产	不强行换 · 下一代新表用 Iceberg / Paimon
国内 + 流场景 + Flink 为主	Paimon	—
高频行级删除（合规 / GDPR）	Iceberg v3 或 Delta v3+（Deletion Vectors）
跨表原子事务	Nessie / Iceberg v3

按团队现状选¶

现状	推荐
现在是 2026 · 新项目起步 · 云中立	Iceberg + Paimon 组合
现在是 2026 · 新项目 · 全栈 Databricks	Delta + Unity Catalog（未来可切 Iceberg）
现在是 2026 · 全栈 Snowflake	Iceberg Tables 原生 + Polaris Catalog
已在 Hudi 生产（Uber / 字节等）	继续 Hudi · 评估新表去 Iceberg 的 ROI
老 Hive 栈 · 想升级	直接 Iceberg，不走 Hudi

混用 / 迁移路径¶

常见混用模式¶

Iceberg + Paimon 双表 （国内互联网主流）：
热 CDC 表：Paimon 主键表（分钟级新鲜度）
冷历史表：Iceberg 追加（批分析 + 时间旅行）
共享同一 Catalog（Nessie / REST / HMS 都可）
Delta + Iceberg 双读（Databricks 用户拥抱开放）：
用 Uniform 把 Delta 表暴露给 Iceberg 读者
写仍用 Delta API、读可多引擎

迁移路径¶

起点 → 终点	难度	典型做法
Hive → Iceberg	低	`CALL system.migrate('hive_table')` 零拷贝迁
Delta → Iceberg	中	Uniform 双读（过渡）→ 完全切换（一次性）
Hudi → Iceberg	中-高	通常一次性重写（不易双写）
Parquet 裸文件 → Iceberg	低	`CREATE TABLE ... AS SELECT` 或 migrate

不推荐的路径¶

Iceberg → 任何其他：反潮流；通常没动力
多格式在同一业务混用（无分层）：运维噩梦

性能对比（公开 benchmark 参考）¶

数据来源

以下数字来自各家公开 benchmark（各有立场）。自家业务 POC 才是真相。

批查询性能（TPC-DS 100，相对比）¶

Iceberg · Delta · Hudi（CoW）· Paimon（批模式）在纯批查询场景差异不大（10% 以内）
Databricks Runtime 的 Photon 给 Delta 额外加成 2-5×（但那是引擎优化不是格式优势）

流式 upsert 吞吐¶

Paimon（LSM）：单作业 10k-100k rows/s
Hudi MoR：单作业 10k-50k rows/s
Iceberg MoR：较新但赶上中
Delta CoW：upsert 不是长项

小文件 / Compaction 开销¶

所有系统都需要定期 compaction
Paimon 的 LSM 机制内建分层合并，自动化好
Iceberg / Delta 需要额外 compaction 作业

现实检视 · 2026 视角¶

协议融合趋势¶

Iceberg 实际上正在成为事实标准，Delta / Hudi / Paimon 都在某种程度"兼容 Iceberg"
Uniform 让 Delta 用户可渐进迁移
Paimon 有独立发展轨迹（LSM 路线），不完全融合 Iceberg，但保持互操作

商业博弈¶

Databricks 收购 Tabular 后，Delta + Iceberg 的商业战争基本结束——Databricks 同时押两边
Snowflake Polaris + Open Catalog 继续推 Iceberg 标准化
国内阿里 / 字节推 Paimon（差异化路线）

对团队的务实建议¶

2026 新项目 · 优先 Iceberg（不论云 / 国内 / 国外）
流场景重的加 Paimon（Iceberg 流能力 v3 后才真补齐）
已有 Delta 栈别急着换，用 Uniform 做过渡
已有 Hudi 栈别急着换，新项目让新表去 Iceberg
关注 Iceberg v3 进度，2026-2027 可能是"大版本切换"节点

警惕的坑¶

盲信"某格式 3× 快过另一个"：benchmark 立场强烈
追求"全栈 Delta"或"全栈 Iceberg"：混用合理有理由
换格式的迁移成本经常被低估：通常 PB 级 1-3 季度
Catalog 决定多引擎：选 Catalog 比选表格式还重要（REST vs Unity vs Polaris）

延伸阅读¶

Apache Iceberg 官方 · Paimon 官方 · Hudi 官方 · Delta 官方
Databricks 收购 Tabular 博客
Snowflake Polaris 发布
Onehouse 多格式对比（注意：Onehouse 主推 Hudi）
Uniform docs (Databricks)
The Open Lakehouse Format Comparison（各家独立测评，2024-2025 多篇更新）