按技术栈索引¶
Reference · 速查
"我们用 AWS + Iceberg + Trino + Feast,我要看哪些页?" 这是手册的第四轴导航(按章节 / 按角色 / 按 tag / 按技术栈)。
AWS 生态¶
- 底座:S3 + Iceberg · Glue Catalog
- 计算:EMR / Athena / Redshift Spectrum(都可以读 Iceberg)
- ML:SageMaker + Feast + MLflow
- 流处理:Kinesis + Flink on EMR
- 向量:pgvector on RDS 或 OpenSearch
- Catalog:Glue(绑定)或自建 Iceberg REST Catalog
- 合规:AWS Lake Formation
GCP 生态¶
- 底座:GCS + BigQuery(BigLake + Iceberg)
- 计算:Dataflow + BigQuery + Dataproc(Spark/Flink)
- ML:Vertex AI Feature Store + Vertex AI Model Registry
- 向量:Vertex AI Vector Search
- Catalog:Dataplex / 自建
- 合规:按 合规 章节
Azure 生态¶
- 底座:ADLS + Databricks + Unity Catalog
- 计算:Databricks Runtime + Synapse
- ML:Azure ML + Feast
- 向量:Azure AI Search (vector) · Cosmos DB
- Catalog:Unity Catalog
Databricks 全栈¶
- 底座:Delta Lake · Unity Catalog
- 计算:Databricks Runtime (Spark + Photon) · SQL Warehouse
- ML:MLflow · Databricks Feature Store · Vector Search
- 协作:Notebook / Workflows / DLT
- 优势:一站式;劣势:锁定
- 对比:湖仓演进史
Snowflake 全栈¶
- 底座:原生 + Snowflake Open Catalog (Polaris) · Iceberg Tables
- 计算:Snowpark + SQL
- ML:Snowpark ML · Cortex · Snowpipe
- Streaming:Snowpipe Streaming
- 对比:TCO 模型
开源自建 Lakehouse¶
- 底座:Iceberg + Paimon
- Catalog:Iceberg REST Catalog / Nessie / Polaris
- 计算:Trino + Spark + Flink + DuckDB
- 加速:StarRocks / ClickHouse / Doris → 对比
- 向量:Milvus / LanceDB / Qdrant
- 调度:Airflow / Dagster / Prefect
- ML:MLflow / Kubeflow / Ray + Feast
实时 / 流处理栈¶
- 核心:Flink + Paimon
- 入口:Kafka / Pulsar + Flink CDC
- 加速:StarRocks 增量物化视图
- 下游:BI / 实时特征 Feature Store
- 对比:流处理引擎横比
- 场景:Real-time Lakehouse · 欺诈检测
RAG 技术栈(企业 AI)¶
- 语料存储:Iceberg raw_docs + doc_chunks
- 向量:LanceDB · Milvus · pgvector
- Embedding:BGE / E5 / Cohere(对比)
- Rerank:bge-reranker / Cohere Rerank(对比)
- LLM:vLLM / SGLang / TGI
- 前沿:Contextual Retrieval / CRAG / Self-RAG
- 管线:LangChain / LlamaIndex / Haystack
- 评估:RAGAS / TruLens
- 协议:MCP
推荐系统栈¶
- 明细:Paimon 行为表
- 特征:Feature Store (Feast / Tecton / Hopsworks)
- 召回:LanceDB / Milvus(向量)+ 多路召回
- 精排:XGBoost / DNN (Classical ML)
- 在线:Redis / Aerospike + 模型 serving (Triton / vLLM)
- 近实时:Flink 实时特征
- 场景:推荐系统场景
BI 技术栈¶
- 数据:Iceberg + Spark ETL
- 建模:dbt(Medallion: ODS/DWD/DWS/ADS)
- 交互查询:Trino / DuckDB
- 加速:StarRocks / ClickHouse
- BI 工具:Superset / Tableau / Metabase
- 语义层:dbt Semantic Layer / Cube
MLOps 栈¶
- 训练:Spark MLlib / Ray Train / PyTorch
- 跟踪:MLflow / Weights & Biases
- Registry:MLflow / Unity Catalog
- Serving:vLLM / TGI / Triton / Ray Serve
- 监控:Prometheus + 自建 drift
- 闭环:MLOps Lifecycle
Agent 技术栈(2025+)¶
- LLM:Claude / GPT / 开源(推理优化)
- 协议:MCP
- 框架:LangGraph / AutoGen / CrewAI
- 工具:Tool-based(SQL / API / 代码执行)
- 评估:SWE-bench / τ-bench / GAIA
- 场景:Agentic Workflows
Feature Store 栈¶
- 开源:Feast + Redis / DynamoDB
- 商业:Tecton / Hopsworks
- 云厂商:SageMaker FS / Vertex AI FS / Databricks FS
- 自建:Iceberg + Redis + dbt
- 概念:Feature Store
安全 / 合规栈¶
- 治理 Catalog:Unity / DataHub / OpenMetadata
- 血缘:DataHub / OpenLineage
- 质量:Great Expectations / Soda / dbt tests
- 合规:GDPR / HIPAA / PDPA / 个保法
- AI 治理:EU AI Act / Guardrails / Red Teaming
国产化技术栈¶
- 底座:Paimon(阿里)· Iceberg
- OLAP:StarRocks / Doris / ByteHouse (ClickHouse)
- 图:Nebula Graph / TigerGraph
- 调度:DolphinScheduler
- 向量:Milvus(Zilliz)· DingoDB
- 云:阿里云 MaxCompute · 腾讯云 COS · 华为 DLI