BI / 数据分析师 · 优先阅读清单¶
Reference · 速查
你的主战场:写 SQL 出数、做报表、搭仪表盘、解释业务指标。理解湖的底层够用,不必深到操作内核。
高频任务速跳
- 报表跑得慢 → 谓词下推 · 性能调优 · 查询加速
- 建语义层 / 指标中台 → Semantic Layer(dbt / Cube / LookML)
- 选加速副本 → OLAP 加速副本对比 · 物化视图
- 建模(星型 / 宽表 / Data Vault) → OLAP 建模
- 端到端 BI on Lake → BI on Lake 场景
必读:知道数据在哪里、怎么来¶
- 湖表(粗读即可)
- Snapshot —— 知道"时间旅行"就够
- OLTP vs OLAP
- 列式 vs 行式
BI 核心¶
- OLAP 建模 —— 星型 / 雪花 / 宽表 / Data Vault / Galaxy / VARIANT
- 语义层 · Semantic Layer ⭐ —— dbt / Cube / LookML 指标中台 · LLM × SL
- 物化视图 —— IVM · Query Rewrite · Iceberg MV
- 查询加速 —— Zone Maps / Sort / Z-order / Puffin / 加速副本
- 仪表盘 SLO ⭐ —— 并发/延迟/新鲜度工程
- BI × LLM ⭐ —— 2026 变革 · Genie/Cortex Analyst/Tableau Pulse
- BI on Lake 场景
你要不要当 Analytics Engineer
如果你的工作越来越偏"定义指标、写 dbt models、管语义层",而不只是写 SQL 取数,那你其实在做 Analytics Engineering。除了上面 BI 核心,额外读 Semantic Layer 的 dbt / Cube 章节 + 数据治理 + OLAP 建模 里的 Data Vault 2.0 段。
查询引擎(按遇到的)¶
- Trino —— 交互式最常用
- DuckDB —— 本地探索
- StarRocks —— 加速层常见
- ClickHouse
- Apache Spark —— 看懂 DWD 作业
性能感¶
建议学习路径¶
先走 一周新人路径(湖 + 检索心智模型),再走 一月 BI 方向。
一月 BI 方向 覆盖:OLAP 建模(星型 / 宽表 / Data Vault)· 物化视图与查询加速 · 语义层 / dbt · OLAP 加速副本(StarRocks / ClickHouse)· BI on Lake 场景端到端 · SLA / SLO 打法。
常用参考¶
- Apache Iceberg §5 代码示例 + §6 维护 —— 常用 SQL 和时间旅行
- 物化视图 · 查询加速
场景¶
随时回头看¶
你会写的 ADR 类型¶
- "为什么我们选择按宽表而不是星型建模 XX 事实表"
- "Dashboard X 的 SLA 与优化路径"
- "加速副本 vs 物化视图 的成本 / 效果对比"