参考资料 · 数据管线 / 入湖¶
Reference · 速查
CDC¶
- Debezium Documentation (official-doc) —— CDC 事实标准开源工具。
- The Log: What every software engineer should know about real-time data's unifying abstraction (2013, blog - Jay Kreps) —— 日志即数据流的奠基长文。
- Kafka: The Definitive Guide (book - Confluent) —— Kafka 完整参考。
流处理¶
- The Dataflow Model (2015, paper - Google) —— 流处理 + 事件时间 + Watermark 奠基。
- Streaming Systems (2018, book - Akidau) —— 流处理教科书。
编排¶
- Airflow Documentation (official-doc) —— Airflow 文档。
- Dagster Documentation (official-doc) —— Asset-centric orchestrator。
- Prefect Documentation (official-doc) —— 现代化 orchestrator。
- Apache DolphinScheduler (official-doc) —— 国内主流 orchestrator。
ELT / dbt¶
- dbt Documentation (official-doc) —— dbt 完整文档。
- Analytics Engineering with dbt (official-doc) —— Analytics Engineering 范式。
入湖工具¶
- Airbyte Documentation (official-doc) —— 开源 ELT。
- Fivetran Documentation (official-doc) —— 商业 ELT。
- Estuary Flow Documentation (official-doc) —— 实时 ELT。
待补:多模管线(图/视/音/文档预处理)经典论文;流批统一架构综述