数据管线¶
Reference · 速查
本章组织
本章按 5 个子组(数据从哪来 → 怎么处理):
- 架构总览:管线架构模式 / 事件时间 Watermark
- 入湖模式:CDC 内核 / Kafka 到湖 / 托管入湖 / Bulk Loading
- 模态管线:图像 / 视频 / 音频 / 文档
- 韧性:管线韧性
- 编排:编排系统 + 横比
外部权威:docs/references/pipelines/(Debezium / Dataflow Model / Streaming Systems · Airflow / Dagster / Prefect 文档)。
湖仓的"数据从哪来"和"数据怎么处理"集中在这一节:入湖协议、CDC 技术、托管 EL(T) 工具、多模内容预处理、编排调度,以及生产必修的管线韧性横切主题。
和其他章节的边界
- lakehouse/Streaming Upsert · CDC · 讲湖表侧如何接 CDC(MoR · changelog producer · 主键表语义)
- query-engines/Apache Flink · 讲 Flink 作为引擎的架构
- scenarios/流式入湖 · 讲端到端场景(业务视角)
- ops/灾难恢复 DR · 讲湖表层灾备(本章 pipeline-resilience 讲管线层韧性)
5 种入湖路径 · 先决策再看产品¶
| 场景 | 推荐路径 |
|---|---|
| OLTP DB(MySQL / PG / Mongo)持续同步到湖 | CDC · Flink CDC 3.x Pipeline / Paimon CDC / Debezium+Kafka |
| 历史 / 冷启动 / 迁库 | Bulk Loading |
| 小团队 / 不想自建栈 | 托管 EL(T) · Airbyte / Fivetran / SeaTunnel / AWS DMS / Databricks Auto Loader |
| 多模内容(图 / 视 / 音 / 文档)预处理入湖 | 模态管线 |
| 持续消费 Kafka 流入湖 | Kafka 到湖 |
端到端架构总览 · 看 架构模式总览——6 种端到端模式(含 1 种 非湖仓对照路径 Kafka→OLAP DB 避免读者形成"湖仓至上"偏见)· 每种的拓扑 / 工具栈 / 延迟 / 陷阱 / 选型决策树。
入湖与 CDC¶
- CDC 内核 —— 三种范式 · Debezium · Flink CDC 3.x · Paimon CDC · Iceberg Sink 跨引擎
- Kafka 到湖 —— Kafka 作为中转的工程决策
- 托管数据入湖 —— Airbyte / Fivetran / SeaTunnel / Auto Loader / AWS DMS
- Bulk Loading(批量装载) —— 初始化 / 历史数据迁移
- 事件时间 · Watermark —— 流式时间语义前置
- 流式入湖 (场景页 · 端到端视图)
多模内容管线("数据湖"里"多模"那部分的真功夫)¶
- 图像管线 —— 归一化 → caption → embedding
- 视频管线 —— 抽帧 → 代表帧 → 时序聚合
- 音频管线 —— ASR → diarization → embedding
- 文档管线 —— 解析 + OCR + chunking
编排¶
生产韧性 · 横切主题¶
- 管线韧性 —— 端到端 Exactly-once · Schema Evolution 传播 · DLQ · 回填 · Backpressure
Embedding 与特征 · 相邻章节¶
- Embedding 流水线 (ml-infra 页 · 批+流)
- 离线训练数据流水线 (场景页)
- Feature Serving (场景页)