跳转至
Multimodal Lakehouse Handbook
按 Tag 浏览
正在初始化搜索引擎
wangyong9999/lakehouse-wiki
Multimodal Lakehouse Handbook
wangyong9999/lakehouse-wiki
首页
入门与教程
入门与教程
按角色
按角色
数据工程师
ML / AI 工程师
平台工程师
BI 分析师
学习路径
学习路径
一周新人路径
一月 AI 方向
一月 BI 方向
一季度资深路径
上手教程
上手教程
你的第一张 Iceberg 表
30 分钟湖上多模检索 Demo
60 分钟 RAG on Iceberg
速查与索引
速查与索引
FAQ
术语表
按技术栈索引
按 Tag 浏览
参考资料库
参考资料库
湖仓 / 表格式
多模检索 / 向量
AI 应用 / RAG / Agent
ML 平台 / MLOps
Catalog / 治理平面
运维 / SRE / DataOps
基础理论
查询引擎
BI 负载
数据管线
业务场景
工业案例
一体化架构
基础
基础
物理存储层
物理存储层
对象存储
存算分离
列式数据文件
列式数据文件
列式 vs 行式
Parquet
ORC
Lance Format
压缩与编码
Parquet vs ORC vs Lance
系统与并发理论
系统与并发理论
MVCC
OLTP vs OLAP
一致性模型
湖仓表格式
湖仓表格式
核心协议
核心协议
湖表
Snapshot
Manifest
Schema Evolution
Partition Evolution
Time Travel
Branching & Tagging
Puffin
运维机制
运维机制
Streaming Upsert / CDC
Delete Files
Compaction · 维护生命周期
扩展 / 前沿
扩展 / 前沿
Materialized View
多模湖仓
Iceberg v3 · spec 演进
系统实现
系统实现
Apache Iceberg
Apache Paimon
Apache Hudi
Delta Lake
横向对比
横向对比
DB 存储引擎 vs 湖表
四大表格式对比
Puffin vs Lance
元数据与 Catalog
元数据与 Catalog
Catalog 策略 · 选型决策
协议层
协议层
Iceberg REST Catalog
OSS 实现层
OSS 实现层
Apache Polaris
Nessie
Unity Catalog
Apache Gravitino
商业托管层
商业托管层
AWS Glue Data Catalog
存量 / 历史
存量 / 历史
Hive Metastore
Catalog 全景对比
数据管线
数据管线
架构模式总览
事件时间 · Watermark
入湖模式
入湖模式
CDC 内核
Kafka 到湖
托管数据入湖
Bulk Loading
模态管线
模态管线
图像管线
视频管线
音频管线
文档管线
管线韧性
编排系统
调度系统横比
查询引擎
查询引擎
引擎通用原理
引擎通用原理
向量化执行
谓词下推
Compute Pushdown · UDF / LLM 下沉
纯查询引擎
纯查询引擎
Trino
DuckDB
通用处理框架
通用处理框架
Apache Spark
Apache Flink
MPP OLAP 数据库
MPP OLAP 数据库
StarRocks
ClickHouse
Apache Doris
数据接入协议
数据接入协议
Arrow · FlightSQL · ADBC
横向对比
横向对比
计算引擎对比
流处理引擎横比
OLAP 加速副本横比
多模检索
多模检索
基础概念
基础概念
向量数据库
Embedding
多模 Embedding
多模专题
多模专题
多模检索架构模式
检索单元粒度
ANN 索引
ANN 索引
HNSW
IVF-PQ
DiskANN
Quantization
检索流水线
检索流水线
Hybrid Search
Sparse Retrieval
Filter-aware ANN
跨模态查询
Rerank
检索评估
产品实现
产品实现
Milvus
LanceDB
Qdrant
Weaviate
pgvector
横向对比
横向对比
ANN 索引对比
向量数据库对比
Embedding 模型横比
Rerank 模型横比
稀疏检索对比
BI 负载
BI 负载
OLAP 建模
语义层 · Metrics Layer
物化视图
查询加速
仪表盘 SLO
BI × LLM
AI 应用
AI 应用
层 1 · 应用模式
层 1 · 应用模式
RAG
MCP · Model Context Protocol
Agent Patterns
Structured Output
Agents on Lakehouse
层 2 · 应用-Runtime 桥
层 2 · 应用-Runtime 桥
LLM Inference
LLM Gateway
Semantic Cache
层 3 · 工程纪律
层 3 · 工程纪律
Prompt 管理
LLM / RAG / Agent Evaluation
LLM Observability
Guardrails
AI App Authorization
Conversation Lifecycle
ML 平台
ML 平台
数据与特征
数据与特征
Feature Store
Data Quality for ML
Embedding 流水线
Feature Store 横比
模型生命周期
模型生命周期
MLOps 生命周期
Experiment Tracking
Model Registry
ML Evaluation
Model Serving
Model Monitoring
训练基础设施
训练基础设施
训练编排
GPU 调度
LLM Fine-tuning
一体化架构 · 跨章决策中心
一体化架构 · 跨章决策中心
Lake + Vector 融合架构
多模数据建模
工业案例
工业案例
7 家横比矩阵
商业产品平台
商业产品平台
Databricks · Lakehouse AI
Snowflake · Data Cloud + Cortex
大厂内部数据平台
大厂内部数据平台
Netflix · Iceberg 诞生地
LinkedIn · Kafka 全家桶 + OpenHouse
Uber · Hudi + Michelangelo
阿里巴巴 · Paimon 诞生地
业务系统案例
业务系统案例
Pinterest · PinSage + Pixie 多模推荐
场景指南
场景指南
E2E 业务场景全景
BI · 分析
BI · 分析
BI on Lake
即席探索 · Notebook
RAG · AI
RAG · AI
RAG on Lake
Agentic 工作流
Text-to-SQL 平台
多模检索流水线
流 · 实时
流 · 实时
流式入湖
Real-time Lakehouse
CDP · 用户分群
欺诈检测 · 风险控制
ML · 推荐
ML · 推荐
离线训练数据流水线
Feature Serving
经典 ML 预测
推荐系统 · 搜索 · 发现
运维与生产
运维与生产
日常运维 · 效率
日常运维 · 效率
可观测性
性能调优
故障排查手册
容量 · 目标
容量 · 目标
SLA · SLO · DRE
容量规划
成本 · 效益
成本 · 效益
成本优化 · FinOps
TCO 模型
安全 · 治理 · 合规
安全 · 治理 · 合规
安全与权限
数据治理
多租户隔离
合规 · GDPR / AI Act / 个保法
DR · 变更 · 事故
DR · 变更 · 事故
灾难恢复 DR
变更管理 · CI/CD · Schema Evolution
事故管理 · SEV / Oncall / Postmortem
迁移手册
反模式 · 清单
反模式 · 清单
28 反模式
生产上线检查清单
ADR
ADR
0001 选择 MkDocs Material
0002 选择 Iceberg
0003 多模向量选 LanceDB
0004 Catalog 选型
0005 引擎组合
0006 章节结构与维度划分
0007 版本刷新 SOP
0008 对抗评审 SOP
0009 frontier → main 下沉判据
0010 废除 frontier 章节
0011 章节内部组织模式
0012 外部参考资料库
附录
附录
数据来源声明
参考资料
参考资料
Benchmark 参考 · 量级数字
Lakehouse 厂商与生态格局
Modern Data Stack 全景
三代数据系统演进史
Changelog
贡献指南
按 Tag 浏览
¶
点任一 tag 查看所有被标记的页面。Tag 从 frontmatter 自动聚合。
[TAGS]
回到页面顶部