跳转至

数据管线

Reference · 速查

本章组织

本章按 5 个子组(数据从哪来 → 怎么处理):

外部权威:docs/references/pipelines/(Debezium / Dataflow Model / Streaming Systems · Airflow / Dagster / Prefect 文档)。

湖仓的"数据从哪来"和"数据怎么处理"集中在这一节:入湖协议、CDC 技术、托管 EL(T) 工具、多模内容预处理、编排调度,以及生产必修的管线韧性横切主题。

和其他章节的边界

5 种入湖路径 · 先决策再看产品

场景 推荐路径
OLTP DB(MySQL / PG / Mongo)持续同步到湖 CDC · Flink CDC 3.x Pipeline / Paimon CDC / Debezium+Kafka
历史 / 冷启动 / 迁库 Bulk Loading
小团队 / 不想自建栈 托管 EL(T) · Airbyte / Fivetran / SeaTunnel / AWS DMS / Databricks Auto Loader
多模内容(图 / 视 / 音 / 文档)预处理入湖 模态管线
持续消费 Kafka 流入湖 Kafka 到湖

端到端架构总览 · 看 架构模式总览——6 种端到端模式(含 1 种 非湖仓对照路径 Kafka→OLAP DB 避免读者形成"湖仓至上"偏见)· 每种的拓扑 / 工具栈 / 延迟 / 陷阱 / 选型决策树。

入湖与 CDC

多模内容管线("数据湖"里"多模"那部分的真功夫)

编排

生产韧性 · 横切主题

  • 管线韧性 —— 端到端 Exactly-once · Schema Evolution 传播 · DLQ · 回填 · Backpressure

Embedding 与特征 · 相邻章节

相关