章节分工声明

本页：合规法规的工程实施视角（具体要求 · 技术对应 · 落地清单）· 含 §4 AI 合规（EU AI Act · NIST AI RMF · 中国生成式 AI 管理办法）
Guardrails 技术层 + Red Teaming 方法 → ai-workloads/guardrails
Model Card / 模型许可工程实施 → ml-infra/model-registry §合规 artifact

数据合规¶

Explanation · 原理资深

一句话理解

湖仓承载的数据几乎都受法律约束。GDPR（欧盟）· HIPAA（美医疗）· PDPA（新加坡等亚洲）· 中国《个人信息保护法 / 数据安全法》· CCPA（加州）—— 各地立法要求不同但核心一致：知情 · 最小化 · 可删除 · 可追溯 · 跨境受限。工程化的合规护栏是"数据产品"的基础能力。

TL;DR

GDPR 三大核心：Right to access · Right to be forgotten · Consent
HIPAA（医疗美国）：PHI（protected health information）严控
中国：数据本地化 + 个人信息出境安全评估
湖上工程手段：分类标签 + 行级过滤 + 删除流程 + 审计日志 + 加密
跨境：Schrems II 判决后，欧美数据流动按 Standard Contractual Clauses
SOC 2 / ISO 27001：商业客户几乎都要求

0. 工程优先级矩阵 · 从哪里开始¶

法规面广不等于都做。工程团队容易被"合规焦虑"吓退 · 关键是先做什么 · 后做什么 · 什么只在触发时做。

0.1 分层优先级¶

层级	定位	触发	谁负责
基础 · 所有团队必做	身份 + 加密 + 审计 + PII 标 + 权限最小化	公司起步	平台团队
行业特定 · 行业触发	HIPAA（医疗）· PCI DSS（支付）· FINRA（金融）· 23 NYCRR 500（纽约金融）	业务进入该行业	合规 + 平台
地域特定 · 地域触发	GDPR（欧盟用户）· 中国个保法（中国用户）· CCPA（加州用户）· APPI（日本）	业务进入该地域	合规 + 平台 + 法务
AI 特定 · AI 应用触发	EU AI Act（欧盟）· NIST AI RMF（美国企业级）· 中国生成式 AI（中国）	做 AI 产品	合规 + AI 团队
认证级 · 商业客户要求	SOC 2 · ISO 27001 · HITRUST（医疗）	商业合同要求	合规（带动工程）
应用层 · 产品特定	Terms of Service · Privacy Policy · Cookie consent	产品上线	产品 + 法务

0.2 从哪里开始 · 4 周起步路径¶

不要一次上所有：

周	目标	产出
Week 1	数据分级 + PII 标注 · Top 50 表	PII tag · Catalog 记录
Week 2	审计日志打开 + 保留 90 天	审计 log pipeline
Week 3	加密存储 + 传输	TLS · KMS / HSM 接入
Week 4	权限最小化 + Access Review 节奏（见 security-permissions）	季度 review SOP

Week 5+：按业务场景上对应行业 / 地域法规 · 不一次性上齐。

0.3 工程 vs 法务分工¶

不要让工程团队一个人扛合规：

工作	工程	法务 / 合规	产品
数据分级标准定义	C	R/A	C
PII 标注实施	R	C	C
审计 / 加密 / 权限实施	R	C	I
合规报表输出	C	R	I
审计应对	C	R/A	I
用户协议 / Consent UI	C	C	R/A
跨境数据流配置	R	A（法律审）	C
AI 模型卡 / 算法备案	C	A	R

不清晰分工的典型问题：工程以为法务在管 GDPR 用户删除权 · 法务以为工程已做好 · 结果都没做。

1. 主要法规速览¶

GDPR（欧盟，2018 年生效）¶

全球最严格、影响最广。核心权利：

权利	含义
Right to access	用户可要求获取其全部数据
Right to be forgotten	用户可要求彻底删除
Right to rectification	更正错误数据
Right to data portability	导出结构化数据
Consent	数据处理前同意
Data breach notification	72 小时内告知

处罚：最高全球营业额 4% 或 2000 万欧元。

典型事故： - Meta 被罚 13 亿欧元（2023，数据跨境） - Amazon 被罚 7.46 亿欧元（2021）

HIPAA（美国医疗）¶

PHI (Protected Health Information) 必须严格保护： - 姓名、地址、日期（除年份） - 医保号、病历号、账户号 - 生物识别数据 - 任何可识别患者的信息

覆盖实体：医院、诊所、保险、服务商。BAA（Business Associate Agreement）是云使用的前提。

PDPA 系列（新加坡 / 泰国等亚洲）¶

类似 GDPR 但略轻。各国略有差异。

中国《个人信息保护法》+ 《数据安全法》¶

2021 生效。关键：

个人信息分类：一般 / 敏感（如生物识别、医疗、金融、14 岁以下未成年人）
处理原则：合法、正当、必要
敏感个人信息需"单独同意"
跨境传输：需要安全评估（CAC 审批）或认证
关键信息基础设施（CII）数据本地化

CCPA（加州）¶

类似 GDPR 简化版。2023 扩展为 CPRA，新增 sensitive PI 分类。

SOC 2¶

安全 / 可用性 / 保密性 / 处理完整性 / 隐私五大 Trust Principle。不是法律，是商业客户采购门槛。

2. 湖仓层面的合规工程¶

基础护栏清单¶

实现 1 · 数据分类¶

-- Iceberg 表属性
ALTER TABLE prod.sales.orders SET TBLPROPERTIES (
  'data.classification' = 'confidential',
  'data.contains_pii' = 'true',
  'data.retention_days' = '2555',   -- 7 年
  'data.owner' = 'sales_team'
);

-- 列级标签（部分 Catalog 支持，如 Unity / Polaris）
ALTER TABLE prod.sales.orders ALTER COLUMN email 
  SET TAGS ('pii', 'sensitive');
ALTER TABLE prod.sales.orders ALTER COLUMN phone 
  SET TAGS ('pii', 'sensitive');

实现 2 · 行级安全¶

-- Unity Catalog 行级过滤函数
CREATE FUNCTION row_filter_by_tenant(tenant_id STRING)
  RETURNS BOOLEAN
  RETURN tenant_id = current_user_tenant();

ALTER TABLE prod.sales.orders
  SET ROW FILTER row_filter_by_tenant ON (tenant_id);

实现 3 · 列级脱敏（动态视图）¶

CREATE VIEW prod.sales.orders_masked AS
SELECT
  order_id,
  CASE WHEN is_member('pii_access') THEN email 
       ELSE regexp_replace(email, '(?<=.).*(?=@)', '***') 
       END AS email,
  CASE WHEN is_member('finance') THEN amount ELSE NULL END AS amount
FROM prod.sales.orders;

-- Iceberg v2 Row-Level Delete
DELETE FROM prod.sales.orders WHERE user_id = 'U-12345';

-- 后续 vacuum 物理删除数据文件
CALL system.remove_orphan_files('prod.sales.orders', older_than => now() - INTERVAL 30 DAYS);

-- 向量库也需删除
lancedb_table.delete("user_id = 'U-12345'")

关键：不只是"标记删除"，还要物理从磁盘删除（GDPR 要求）。

对 Iceberg：删除写到 Delete File → 下次 compaction 物理合并 → expire_snapshots 后物理清除。

实现 5 · 加密¶

两类：

类型	做法
In-Transit	HTTPS / TLS 1.2+ · 集群内 mTLS
At-Rest	S3 SSE（AES-256）· KMS 密钥 · Client-side encryption（Iceberg 支持）
Column-level	敏感列单独密钥（Iceberg 支持）

实现 6 · 审计日志¶

-- Audit log 作为 Iceberg 表
CREATE TABLE audit.access_log (
  event_ts TIMESTAMP,
  user_id  STRING,
  operation STRING,      -- SELECT / INSERT / DELETE / SHARE / ...
  catalog  STRING,
  schema   STRING,
  table    STRING,
  columns  ARRAY<STRING>,
  row_count BIGINT,
  query_text STRING,
  client_ip STRING,
  success  BOOLEAN
) USING iceberg
PARTITIONED BY (days(event_ts));

所有引擎（Trino / Spark / DuckDB 通过 Catalog）查询 → 写入 audit。

3. 跨境传输¶

欧美之间（Schrems II 后）¶

2020 Schrems II 判决让 Privacy Shield 无效。目前方案：

Standard Contractual Clauses (SCC)：合同承诺 GDPR 级别保护
Transfer Impact Assessment (TIA)：评估目的地法律风险
Supplementary measures（加密 / 假名化）

实务： - Anthropic、OpenAI 的欧洲客户，数据在 EU-hosted instances - AWS / GCP 提供 EU region + data residency 承诺

中国出境¶

需要： - CAC 安全评估（大规模 / 敏感数据） - 个人信息保护认证（中等规模） - 标准合同（小规模）

工程手段： - 关键数据本地化（中国业务用中国区域） - Cross-region 流动经审批路径 - 数据分级 + 出境清单 管理

4. AI 合规叠加（2024-2026 重点）¶

AI 法规2024-2026 爆发 · 本节详细讲工程影响。Red Teaming 方法论和 Guardrails 工具见 ai-workloads/guardrails §7。

4.1 EU AI Act（2024-08 生效 · 2026-08 全量执行）¶

全球最严格的 AI 法规。核心是风险分级：

风险级	定义	工程要求
Unacceptable Risk	社会评分 · 实时生物识别执法 · 操纵人类行为	禁止
High Risk	招聘 · 信贷 · 执法 · 教育 · 医疗决策 · 关键基础设施	严格监管（见下方详细）
Limited Risk	聊天机器人 · 深度伪造	透明度要求（告知用户是 AI）
Minimal Risk	游戏 AI · 垃圾邮件过滤	无特殊要求

High Risk 系统工程要求（对数据平台影响最大）：

Risk Management System · 系统化风险识别 / 评估 / 缓解流程
Data Governance · 训练 / 验证 / 测试数据的质量 + 偏见检查
Technical Documentation（必须有 Model Card + 训练数据描述）· 见 ml-infra/model-registry §合规 artifact
Record-Keeping · 自动日志保存 · 用于事后审计
Transparency · 使用者理解系统输出
Human Oversight · HITL · 人可以停掉 / 审核
Accuracy · Robustness · Cybersecurity

处罚：最高 3500 万欧元或全球营业额 7%（更严 GDPR）。

4.2 NIST AI Risk Management Framework（AI RMF · 2023）¶

美国联邦层面的 AI 风险管理框架（非法律但政府采购要求）：

AI RMF 四功能： - Govern · 组织治理 AI 风险 - Map · 识别 AI 使用场景和风险 - Measure · 测量风险（准确性 · 偏见 · 鲁棒性 · 可解释性 · 隐私） - Manage · 优先级排序 · 分配资源 · 缓解

工程对应：Model Card + 自动评估 + Fairness subgroup 监控 + 文档。

4.3 中国《生成式 AI 服务管理办法》（2023-07 生效）¶

中国针对生成式 AI 的专门法规：

核心要求： - 备案 · 提供服务需向网信办备案 - 数据合规 · 训练数据来源合法 · 不侵犯知识产权 - 内容安全 · 输出不得生成违法有害内容 - 用户标识 · 生成内容明示为 AI 生成 - 个人信息 · 不得非法处理个人信息 - 未成年人保护 · 防沉迷

工程对应： - 内容过滤（见 ai-workloads/guardrails） - 输出水印 / 标识 - 训练数据来源审计 - 用户行为日志保存

更宽：还有《互联网信息服务算法推荐管理规定》（2022）· 《互联网信息服务深度合成管理规定》（2023）· 《生成式 AI 服务管理办法》（2023）· 三者组合。

4.4 AI 供应链合规（2024-2026 新话题）¶

模型 License 合规是 AI 供应链核心问题：

Llama 3 Community License：7 亿 MAU 上限（超限要单独谈）· 不得训练竞品 LLM
Gemma Terms：相对宽松但有使用政策
Mistral（开源系列）：Apache 2.0 · 商用友好
Qwen / DeepSeek / Baichuan · 各版本不同

工程对应： - Model Registry 强制 license 元数据（见 ml-infra/model-registry） - Fine-tuned 模型继承 base license 限制 - 自动扫描（MAU 接近限制告警）

4.5 AI 系统的典型合规清单¶

对应 EU AI Act High Risk 系统 · 工程 checklist：

5. SOC 2 落地要点¶

企业客户最常要求。Type II 审计（6-12 月期）是真正有价值的。

五个 Trust Principle：

	核心控制
Security	访问控制、加密、漏洞管理
Availability	SLO、DR、Backup
Confidentiality	分类、加密、NDA
Processing Integrity	数据质量、自动化测试
Privacy	Consent、访问请求、删除流程

工具：Vanta · Drata · SecureFrame（商业合规平台）帮做 SOC 2。

6. 合规与工程冲突的平衡¶

常见冲突¶

合规要求	工程影响
数据最小化	想留一切数据做分析
删除权	历史 snapshot 难处理
跨境限制	云成本多 region 部署
审计日志保留	存储成本
加密	延迟 + 运维

平衡原则¶

分级：不是所有数据都要最高合规，按分类区分
尽量自动化：手动合规成本爆
影响评估：重大变更走 DPIA
合规工具链一次投入：省却每个项目重复做

7. 陷阱¶

"我们没欧洲用户"：但 B 端客户有 → 传染合规要求
Audit log 不保留：事故发生后查不到原因 → 监管重罚
Iceberg 旧 snapshot 含被删数据：expire_snapshots 必须跑
向量库没删除：LanceDB / Milvus 里用户 embedding 还在
日志里 PII 明文：自己违法
Cross-region 自动同步不加审批：数据悄悄出境
加密密钥管理差：KMS 配错权限 → 密钥泄露 = 全部数据泄露
Consent 没记录：监管查同意证据拿不出
SOC 2 纸面合规：证书有但实际控制缺失 → 真审计挂

8. 延伸阅读¶

GDPR 官方全文 · HIPAA 官方
中国个保法 · 数据安全法
NIST Privacy Framework
AICPA SOC 2 指南
Schrems II 判决
Privacy Engineering: A Dataflow and Ontological Approach（Cranor, 2022）
The Privacy Engineer's Manifesto（Dennedy et al.）