跳转至

案例 · Databricks 数据平台

Reference · 速查资深

本页性质 · reference · 非机制 canonical

基于 Databricks 博客 · 官方文档 · 公开 keynote 整理。机制深挖见 lakehouse/delta-lake · catalog/unity-catalog · query-engines/compute-pushdown。本页讲"产品演化 · 取舍 · 教训 · 启示"。

对应场景 · 配对阅读

本案例 = Databricks 商业平台全栈场景切面(Databricks 在具体业务场景的做法)在 scenarios/: - scenarios/bi-on-lake §工业案例 · DBSQL + Photon + Genie - scenarios/rag-on-lake §工业案例 · Vector Search + AI Functions - scenarios/agentic-workflows §工业案例 · Genie Agents - scenarios/text-to-sql-platform §工业案例 · Genie - scenarios/multimodal-search-pipeline §工业案例 · Vector Search 多模

TL;DR

  • 身份工业界最典型的"BI + AI 一体化平台"代表 · 2024-2026 市值千亿级美元
  • 技术哲学"Lakehouse 架构"(2020 提出 · Delta Lake 作基础)+ "AI-native 数据平台"(2023 收购 MosaicML 整合)
  • 核心技术栈演进:Spark(2013)→ Delta Lake(2019)→ Photon(2020)→ Unity Catalog(2021)→ MosaicML 收购整合(2023)→ AI Functions · Vector Search · Foundation Model API(2024+)
  • 2024-2026 里程碑:DBRX 开源 LLM(2024)· UniForm(2024 Delta 多格式兼容 Iceberg/Hudi)· Unity Catalog OSS 捐 LF AI(2024)· Lakehouse AI 整合产品化
  • 最值得资深工程师看的:§8 深度技术取舍(Delta vs Iceberg 的"UniForm 赌注" · UC 商业 vs OSS 的双轨策略 · MosaicML 整合中的组织挑战)· §9 真实踩坑(Delta vs Iceberg 生态战 · UC OSS 2024 上路慢)

1. 为什么这个案例值得学

Databricks 是工业数据平台领域 2020-2026 阶段最重要的一家: - Lakehouse 架构是 Databricks 2020 年提出的范式 · 今天整个行业共识 - 一体化平台(BI + AI 一套)是本 wiki 核心主张的现实对照(见 unified/index) - 商业 + 开源双轨策略(Delta OSS + Databricks 商业 · UC OSS + 商业)的复杂度管理

资深读者关注点: - "Delta 生态 vs Iceberg 生态"的商业战争(§8.1 · 2023-2024 最激烈 · UniForm 是 Databricks 的回应) - UC 商业版 vs UC OSS 的双轨(§8.2 · 决定 UC 能否成为跨 Databricks 的行业标准) - MosaicML 整合(§8.3 · 2023 年最重要的 AI 并购之一 · 2024-2026 产品化挑战)

2. 历史背景

Databricks 2013 年成立 · 最初身份是"Spark 商业化公司"(由 Spark 原始作者 Matei Zaharia 等创立)。

关键战略演进

年份 事件 战略意义
2013 Databricks 成立 · Spark 商业化 Spark 托管平台
2019 Delta Lake 开源 从"计算公司"转"存储 + 计算"公司
2020 提出 Lakehouse 架构 概念 概念领导权
2020 Photon 向量化引擎 追 Snowflake 性能
2021 Unity Catalog 发布 从"平台"转"治理 + 平台"
2022 DBSQL 对标 Snowflake BI 侧扩展
2023 收购 MosaicML $1.3B All-in AI
2023 推 Lakehouse AI BI + AI 一体化定位
2024 DBRX 开源 132B MoE LLM 技术品牌建设
2024 UniForm(Delta 多格式互操作 · 读 Iceberg/Hudi) 对抗 Iceberg 生态压力
2024 UC OSS 捐 LF AI & Data Foundation 争取行业标准地位
2025+ AI Functions + Foundation Model API 深度整合 SQL LLM UDF 生态战

3. 核心架构(2026 现代形态)

flowchart BT
  subgraph "数据源"
    oltp[OLTP / ERP / CRM]
    files[云文件 · S3 / GCS / ADLS]
    stream[Kafka / Event Hub / Kinesis]
  end

  subgraph "入湖"
    autoloader[Auto Loader]
    dlt[Delta Live Tables · 流批一体]
  end

  subgraph "湖仓底座"
    delta[(Delta Lake 4.0+)]
    uniform[UniForm<br/>多格式互操作]
    s3[(云对象存储)]
  end

  subgraph "Catalog / 治理"
    uc[Unity Catalog<br/>商业 + OSS 双轨]
  end

  subgraph "计算"
    spark[Spark + Photon]
    dbsql[DBSQL<br/>交互 SQL]
    serverless[Serverless 计算]
  end

  subgraph "AI 能力"
    mlflow[MLflow]
    vectorsearch[Vector Search]
    ai_fn[AI Functions<br/>SQL LLM UDF]
    fmapi[Foundation Model API<br/>DBRX / Claude / Llama 3 等]
    mosaic[Mosaic AI Training<br/>LLM 微调]
    servingplat[Model Serving]
  end

  subgraph "BI 消费"
    dashboards[Dashboards]
    genie[Genie · Text-to-SQL]
  end

  oltp --> autoloader --> delta
  files --> autoloader --> delta
  stream --> dlt --> delta
  delta --> uniform
  uc -.-> delta
  delta --> spark & dbsql & serverless
  delta --> mlflow & vectorsearch
  vectorsearch --> ai_fn
  fmapi --> ai_fn
  mosaic --> mlflow
  servingplat --> mlflow
  dbsql --> dashboards
  genie --> dbsql

4. 8 维坐标系

维度 Databricks
主场景 通用数据 + AI 平台(BI + ML + LLM 应用一套)
表格式 Delta Lake 4.0+(自家主推)+ UniForm(2024+ 读 Iceberg / Hudi)
Catalog Unity Catalog(商业 + OSS)· 多模资产最全(Table / Model / Volume / Function / Vector Index)
存储 云对象存储(S3 / GCS / ADLS 跨云)
向量层 Vector Search(托管 · Delta 一等公民)
检索 Vector Search + Hybrid + Reranker 内建 · 接 Model Serving
主引擎 Spark + Photon(向量化 C++ 引擎)· DBSQL(交互 SQL)
独特做法 "Catalog 作为治理平面" · 行列级 + Tag 策略 + 血缘跨 BI/ML · 一体化程度业界最深

5. 关键技术组件 · 深度

5.1 Delta Lake · 湖表格式

Databricks 2019 开源的湖表格式。主要特性和 Iceberg 高度重合: - Snapshot + Transaction log(_delta_log/ 目录) - Schema Evolution - Time Travel(VERSION AS OF / TIMESTAMP AS OF) - Change Data Feed(CDF)· 2021+

Delta 4.0(2024+)关键新特性: - Variant 类型(半结构化 · 对标 Iceberg v3) - Identity column(生成列自增) - Row Tracking(类似 Iceberg v3 row lineage)

详见 lakehouse/delta-lake

5.2 UniForm · 2024 多格式互操作

2024 年 Databricks 对"Iceberg 生态压力"的战略回应: - UniForm 让一张 Delta 表同时被 Iceberg / Hudi 引擎读取 - 底层数据不动 · 只是暴露 Iceberg / Hudi 的 metadata 视图 - 不是双写 · 是"一份数据 · 多格式 API"

意义:客户可以"写 Delta · 读 Iceberg" · 从而绕过"不得不选一个格式"的困境。对 Iceberg 生态是软抵抗 · 对客户是双保险。

5.3 Unity Catalog · 治理平面

本 wiki catalog/strategy 的核心参考对象

多模资产一等公民(行业最完整): - Table(Delta / Iceberg / Hudi · 通过 UniForm) - Volume(文件 · 图/视/音 / 模型 artifact) - Model(MLflow 模型 · 带 alias) - Function(UDF · 包括 AI Functions) - Vector Index - External Location(外部挂载)

治理能力: - 行列级 RBAC - Tag 策略(PII tag 自动 mask) - 列级血缘(跨 Spark / DBSQL / Python) - 完整审计

2024 Unity Catalog OSS 捐 LF AI & Data Foundation · 争夺行业标准地位(对抗 Polaris / Nessie)。详见 catalog/unity-catalog · catalog/strategy

5.4 Photon · 向量化执行引擎

  • C++ 重写 Spark 执行层(2020+ 商业版)
  • 对标 Snowflake 向量化性能
  • SIMD / 列批 / 编译技术
  • 仅在商业版(不开源)· 这是 Databricks 商业护城河之一

5.5 Vector Search(2024+)· 向量检索托管

  • Delta 表一等向量索引
  • HNSW + Hybrid + Reranker
  • 和 UC 权限一套
  • 2024-2026 快速演进 · 对标 Pinecone / Weaviate / Qdrant

5.6 AI Functions · SQL LLM UDF

Databricks 2024+ 推 SQL 里调 LLM / embedding / 分类的函数族(ai_classify · ai_embed · ai_generate_text 等)· 对标 Snowflake Cortex。

本页不展开 API 细节(代码示例和产品用法 canonical 在 query-engines/compute-pushdown §4.4)。本页关注商业意图: - SQL LLM UDF 是 Databricks vs Snowflake 2024-2026 产品线趋同的代表 - 两家都赌"SQL 里调 LLM"是 BI 侧 AI 化的主要入口 - 背后是 Foundation Model API(§5.7)的商业护城河

5.7 Foundation Model API · LLM Serving

托管多家 LLM(DBRX · Llama 3/4 · Claude 代理 · Mistral · etc)· pay-per-token。 - 和 Unity Catalog 权限一套 - AI Functions 后端 - 支持自托管(customer Foundation Models)

5.8 MosaicML Integration(2023 收购 → 2024-2026 整合)

2023 年 $1.3B 收购 MosaicML。产品化成 Mosaic AI: - Mosaic AI Training(LLM 微调)· 详见 ml-infra/fine-tuning-data - Mosaic AI Vector Search(前期的独立产品 · 2024+ 合并到 Databricks Vector Search) - Mosaic Foundation Models(预训练 / 微调基础) - DBRX(2024 开源 132B MoE LLM · 技术品牌)

5.9 DBSQL · 对标 Snowflake 的交互 SQL

2022+ 推出 · 是 Databricks 扩展 BI 侧的产品: - 对标 Snowflake 交互 SQL - Photon 加速 - 和 UC 深度集成 - 成为 Databricks 商业化的重要支柱之一

5.10 Genie · Text-to-SQL(2024+)

UC 上的 Text-to-SQL 产品 · 集成 AI Functions。详见 scenarios/text-to-sql-platform

6. 2024-2026 关键演进

时间 事件 意义
2023 MosaicML $1.3B 收购 All-in AI · 改变 Databricks 战略重心
2024 DBRX 开源(132B MoE) 技术品牌 + 竞争 Llama / Mistral
2024 UniForm(Delta 读 Iceberg / Hudi) 对 Iceberg 生态的战略回应
2024 UC OSS 捐 LF AI(0.4.1+) 争夺行业 Catalog 标准
2024 AI Functions 大量 GA · Vector Search 深化 SQL LLM UDF 生态抢占
2024+ Mosaic AI Training 整合 Fine-tuning 产品化
2025 Genie Text-to-SQL BI 侧 AI 化
2025+ Lakehouse Monitoring 整合 BI + ML 监控一体

7. 规模数字

以下为量级参考 · [来源未验证 · 示意性 · 多数为 Databricks 官方 blog / keynote 披露]

维度 量级
客户数 10000+
市值 千亿美元级
每日处理数据 EB 级(全客户合计)
DBRX 模型规模 132B 总参数 · 36B active(MoE)
Unity Catalog OSS 贡献方 20+ 公司

8. 深度技术取舍 · 资深读者核心价值

8.1 取舍 · Delta vs Iceberg · UniForm 的"软投降 or 软主权"

2023-2024 年湖表格式战争达到高潮 · Databricks Delta vs Iceberg 社区的竞争激烈:

Iceberg 的生态优势: - Netflix / Apple / LinkedIn / Snowflake / AWS 都支持 - 多引擎生态广(Spark / Trino / Flink / Rust) - 2024 vendor landscape 倾向 Iceberg

Databricks 的回应 · UniForm(2024): - "Delta 内 · 但读 Iceberg / Hudi" - 客户写 Delta · 其他引擎按 Iceberg 读 - 战略:既保 Delta 控制权 · 又开放互操作 · 不被"只能选 Iceberg"绑架

这是软投降还是软主权: - 乐观看:Databricks 放弃"Delta 独占" · 拥抱互操作 · 客户是赢家 - 怀疑看:UniForm 在复杂 schema evolution 下有 bug · 实际效果有争议(2024 年多次公开报告)· Databricks 仍坚持 Delta 为 primary

资深启示:在湖表格式选择上 · UniForm 给 Databricks 客户一个不必迁移的选项 · 但长期 Iceberg 仍占优。Databricks 的策略是"保 primary + 兼容 secondary" · 不是"全部改用 Iceberg"。

8.2 取舍 · Unity Catalog 商业 vs OSS 的双轨

UC 商业版(2021+)和 UC OSS(2024 捐 LF AI)是双轨策略

商业版: - 能力最完整(所有治理特性) - 深度绑定 Databricks 商业平台 - 客户 lock-in

OSS 版(0.4.1): - 基础功能 + 简化治理 - 开源 · 任何人可部署 - 能争夺行业 Catalog 标准地位

权衡: - 风险:OSS 太强会蚕食商业版价值 - 机会:OSS 弱则无法对抗 Polaris / Nessie · Catalog 标准权丢给别家

Databricks 的选择:OSS 能力故意保留基础层 · 高级治理留商业版。这让 OSS "能用但不完美" · 商业升级路径明确。

资深启示商业开源的双轨设计是精细游戏 · OSS 特性释放节奏直接决定市场格局。

8.3 取舍 · MosaicML 整合的组织挑战

2023 年 MosaicML $1.3B 收购后 · 2024-2026 整合挑战: - MosaicML 原有产品线(预训练 · 微调 · Vector Search)和 Databricks 原有产品重合 - 如何合并不伤害客户: - Vector Search 独立产品 → 合并到 Databricks Vector Search(2024) - Training 能力 → 成为 Mosaic AI Training - 品牌 → Mosaic AI 作 umbrella

整合典型问题: - 文化冲突(MosaicML 研究导向 · Databricks 产品导向) - 客户路径切换(原 MosaicML 客户要迁到 Databricks 平台) - 开源策略调整(DBRX 开源是整合成果)

资深启示AI 公司收购 AI 公司(非平台收购)的整合是 2023-2026 整个行业的共同挑战(参考 Microsoft + Inflection · NVIDIA + Run:ai)。

8.4 取舍 · "Lakehouse"叙事 vs 传统数据湖/数仓

Databricks 2020 提出 Lakehouse 架构(一篇 CIDR 2021 论文 + 一系列博客)· 声称:湖的灵活性 + 仓的性能

对 Snowflake 的商业竞争: - Snowflake 走"数仓 + 对接湖"路径(Polaris 2026 TLP 是反应) - Databricks 走"湖 + 上扩数仓"路径

2024-2026 观察: - 两家在产品上都 converging(Snowflake 加 Iceberg 原生 · Databricks 加 DBSQL) - 客户选择:看主业务(BI 重 → Snowflake · AI 重 → Databricks · 多半混用)

资深启示架构概念词(Lakehouse)有商业价值 · 能定义话语权 · 但实际产品能力 converging 的趋势下 · 最终选择看细节。

9. 真实失败 / 踩坑

9.1 Delta 生态局限(2020-2023)

Delta Lake 2019 开源但长期被视为"Databricks 的开源": - 其他厂商(Snowflake / AWS / Google)更愿意支持 Iceberg - 多引擎支持进展慢(Trino 支持 Iceberg 早于 Delta) - 2023 年 Iceberg 事实上领先

教训仅靠一家公司主导的开源产品很难成行业标准 · UniForm(2024)是 Databricks 对这一教训的响应。

9.2 Unity Catalog OSS 上路慢(2021-2024)

UC 商业版 2021 发布 · 但 OSS 版拖到 2024 才捐 LF AI。3 年窗口里: - Polaris(Snowflake 捐 Apache)抢占 Iceberg Catalog 心智 - Nessie 在 Git-flow 场景站稳 - Gravitino(字节系)进入 - UC OSS 发布时已经不是"第一玩家"

教训开源时机不能等"产品完美" · 晚开源的代价是让其他人建立标准。

9.3 UniForm 复杂 schema 下 bug

2024 年客户社区多次报告 UniForm 在复杂 schema evolution 场景的不一致: - 嵌套类型更改 - 分区演化和 Iceberg 投影的对齐 - 部分操作后 Iceberg 读不出

教训多格式互操作的复杂度远超技术宣传 · UniForm 不是"无痛兼容"· 生产使用需要详细测试。

9.4 MosaicML 整合阶段性产品线混乱

2023-2024 年整合初期: - Vector Search 有 Databricks Vector Search + Mosaic Vector Search 两个 - Training 产品有 Databricks ML Training + Mosaic Training - 客户和销售团队都困惑"该选哪个"

2024 年统一成 Mosaic AI 品牌后好转。教训大型 AI 收购整合期(1-2 年)产品线混乱是常态 · 客户应关注统一后的长期形态

10. 对团队的启示

以下为观点提炼 · 非客观事实 · 选 2-3 条记住即可

启示较多(5 条)· 不必全读全用。战略决策 canonical 在 unified/index §5 团队路线主张 · catalog/strategy · compare/ · 本页启示是可参考的观察 · 不是建议照搬。

启示 1 · 一体化平台价值真实但锁定代价高

Databricks 的一体化平台(BI + ML + LLM)确实好用 · 但代价是极度 lock-in(Delta + UC + Photon 都是商业)。

对中国团队: - 有预算 + 合规可接受云厂商 → Databricks / Snowflake 一体化栈可以考虑 - 自主可控需求 → 开源栈(Iceberg + Unity Catalog OSS + Spark + MLflow)更安全

启示 2 · UniForm 思路启示本团队的多格式并存

UniForm 证明"一份数据 · 多格式读"技术可行。对本团队的启示: - 如果长期战略是 Iceberg · 可以容忍短期 Delta 写 + Iceberg 读(UniForm) - 多格式并存比"一刀切迁移"经济

但要实测 UniForm 在自己场景的稳定性 · 不要盲信营销。

启示 3 · SQL LLM UDF 是下一代竞争焦点

AI Functions + Cortex + BigQuery ML 都在推 "SQL 里调 LLM" 范式。本团队应: - 关注 query-engines/compute-pushdown - 评估开源路径(Spark + Ray + vLLM 组合) - 不要被 "商业 SQL LLM 函数" 锁定

启示 4 · Catalog 是生态战的关键

UC OSS 捐 LF AI 不是"开源美德" · 是抢行业 Catalog 标准。本团队 Catalog 选型不要只看技术 · 要看谁背后社区最可能成标准(见 catalog/strategy)。

启示 5 · 商业开源产品的节奏看清

Databricks OSS 开放的节奏是"基础层开源 · 高级特性留商业"。对类似策略: - 客户:评估 OSS 能否满足 80% 需求 · 高级特性是否必需 - 开源消费者:理解"社区版本永远比商业慢一步"是结构性的 · 不是 bug

11. 技术博客 / 论文(权威来源)

12. 相关章节