章节分工声明
- 本页:合规法规的工程实施视角(具体要求 · 技术对应 · 落地清单)· 含 §4 AI 合规(EU AI Act · NIST AI RMF · 中国生成式 AI 管理办法)
- Guardrails 技术层 + Red Teaming 方法 → ai-workloads/guardrails
- Model Card / 模型许可工程实施 → ml-infra/model-registry §合规 artifact
数据合规¶
一句话理解
湖仓承载的数据几乎都受法律约束。GDPR(欧盟)· HIPAA(美医疗)· PDPA(新加坡等亚洲)· 中国《个人信息保护法 / 数据安全法》· CCPA(加州)—— 各地立法要求不同但核心一致:知情 · 最小化 · 可删除 · 可追溯 · 跨境受限。工程化的合规护栏是"数据产品"的基础能力。
TL;DR
- GDPR 三大核心:Right to access · Right to be forgotten · Consent
- HIPAA(医疗美国):PHI(protected health information)严控
- 中国:数据本地化 + 个人信息出境安全评估
- 湖上工程手段:分类标签 + 行级过滤 + 删除流程 + 审计日志 + 加密
- 跨境:Schrems II 判决后,欧美数据流动按 Standard Contractual Clauses
- SOC 2 / ISO 27001:商业客户几乎都要求
0. 工程优先级矩阵 · 从哪里开始¶
法规面广不等于都做。工程团队容易被"合规焦虑"吓退 · 关键是先做什么 · 后做什么 · 什么只在触发时做。
0.1 分层优先级¶
| 层级 | 定位 | 触发 | 谁负责 |
|---|---|---|---|
| 基础 · 所有团队必做 | 身份 + 加密 + 审计 + PII 标 + 权限最小化 | 公司起步 | 平台团队 |
| 行业特定 · 行业触发 | HIPAA(医疗)· PCI DSS(支付)· FINRA(金融)· 23 NYCRR 500(纽约金融) | 业务进入该行业 | 合规 + 平台 |
| 地域特定 · 地域触发 | GDPR(欧盟用户)· 中国个保法(中国用户)· CCPA(加州用户)· APPI(日本) | 业务进入该地域 | 合规 + 平台 + 法务 |
| AI 特定 · AI 应用触发 | EU AI Act(欧盟)· NIST AI RMF(美国企业级)· 中国生成式 AI(中国) | 做 AI 产品 | 合规 + AI 团队 |
| 认证级 · 商业客户要求 | SOC 2 · ISO 27001 · HITRUST(医疗) | 商业合同要求 | 合规(带动工程) |
| 应用层 · 产品特定 | Terms of Service · Privacy Policy · Cookie consent | 产品上线 | 产品 + 法务 |
0.2 从哪里开始 · 4 周起步路径¶
不要一次上所有:
| 周 | 目标 | 产出 |
|---|---|---|
| Week 1 | 数据分级 + PII 标注 · Top 50 表 | PII tag · Catalog 记录 |
| Week 2 | 审计日志 打开 + 保留 90 天 | 审计 log pipeline |
| Week 3 | 加密 存储 + 传输 | TLS · KMS / HSM 接入 |
| Week 4 | 权限最小化 + Access Review 节奏(见 security-permissions) | 季度 review SOP |
Week 5+:按业务场景上对应行业 / 地域法规 · 不一次性上齐。
0.3 工程 vs 法务分工¶
不要让工程团队一个人扛合规:
| 工作 | 工程 | 法务 / 合规 | 产品 |
|---|---|---|---|
| 数据分级标准定义 | C | R/A | C |
| PII 标注实施 | R | C | C |
| 审计 / 加密 / 权限实施 | R | C | I |
| 合规报表输出 | C | R | I |
| 审计应对 | C | R/A | I |
| 用户协议 / Consent UI | C | C | R/A |
| 跨境数据流配置 | R | A(法律审) | C |
| AI 模型卡 / 算法备案 | C | A | R |
不清晰分工的典型问题:工程以为法务在管 GDPR 用户删除权 · 法务以为工程已做好 · 结果都没做。
1. 主要法规速览¶
GDPR(欧盟,2018 年生效)¶
全球最严格、影响最广。核心权利:
| 权利 | 含义 |
|---|---|
| Right to access | 用户可要求获取其全部数据 |
| Right to be forgotten | 用户可要求彻底删除 |
| Right to rectification | 更正错误数据 |
| Right to data portability | 导出结构化数据 |
| Consent | 数据处理前同意 |
| Data breach notification | 72 小时内告知 |
处罚:最高全球营业额 4% 或 2000 万欧元。
典型事故: - Meta 被罚 13 亿欧元(2023,数据跨境) - Amazon 被罚 7.46 亿欧元(2021)
HIPAA(美国医疗)¶
PHI (Protected Health Information) 必须严格保护: - 姓名、地址、日期(除年份) - 医保号、病历号、账户号 - 生物识别数据 - 任何可识别患者的信息
覆盖实体:医院、诊所、保险、服务商。BAA(Business Associate Agreement)是云使用的前提。
PDPA 系列(新加坡 / 泰国等亚洲)¶
类似 GDPR 但略轻。各国略有差异。
中国《个人信息保护法》+ 《数据安全法》¶
2021 生效。关键:
- 个人信息分类:一般 / 敏感(如生物识别、医疗、金融、14 岁以下未成年人)
- 处理原则:合法、正当、必要
- 敏感个人信息需"单独同意"
- 跨境传输:需要安全评估(CAC 审批)或认证
- 关键信息基础设施(CII)数据本地化
CCPA(加州)¶
类似 GDPR 简化版。2023 扩展为 CPRA,新增 sensitive PI 分类。
SOC 2¶
安全 / 可用性 / 保密性 / 处理完整性 / 隐私五大 Trust Principle。 不是法律,是商业客户采购门槛。
2. 湖仓层面的合规工程¶
基础护栏清单¶
- 数据分类标签(Tag by sensitivity)
- 访问控制(RBAC / ABAC / 行级 / 列级)
- 加密(传输 TLS + 存储 SSE)
- 审计日志(谁何时访问了什么)
- PII 识别与脱敏
- 删除流程(GDPR 被遗忘权)
- 跨境传输控制
- 数据保留期(过期自动销毁)
- Consent 记录
- DPIA(高风险处理的影响评估)
实现 1 · 数据分类¶
-- Iceberg 表属性
ALTER TABLE prod.sales.orders SET TBLPROPERTIES (
'data.classification' = 'confidential',
'data.contains_pii' = 'true',
'data.retention_days' = '2555', -- 7 年
'data.owner' = 'sales_team'
);
-- 列级标签(部分 Catalog 支持,如 Unity / Polaris)
ALTER TABLE prod.sales.orders ALTER COLUMN email
SET TAGS ('pii', 'sensitive');
ALTER TABLE prod.sales.orders ALTER COLUMN phone
SET TAGS ('pii', 'sensitive');
实现 2 · 行级安全¶
-- Unity Catalog 行级过滤函数
CREATE FUNCTION row_filter_by_tenant(tenant_id STRING)
RETURNS BOOLEAN
RETURN tenant_id = current_user_tenant();
ALTER TABLE prod.sales.orders
SET ROW FILTER row_filter_by_tenant ON (tenant_id);
实现 3 · 列级脱敏(动态视图)¶
CREATE VIEW prod.sales.orders_masked AS
SELECT
order_id,
CASE WHEN is_member('pii_access') THEN email
ELSE regexp_replace(email, '(?<=.).*(?=@)', '***')
END AS email,
CASE WHEN is_member('finance') THEN amount ELSE NULL END AS amount
FROM prod.sales.orders;
实现 4 · GDPR 被遗忘权(Right to be Forgotten)¶
-- Iceberg v2 Row-Level Delete
DELETE FROM prod.sales.orders WHERE user_id = 'U-12345';
-- 后续 vacuum 物理删除数据文件
CALL system.remove_orphan_files('prod.sales.orders', older_than => now() - INTERVAL 30 DAYS);
-- 向量库也需删除
lancedb_table.delete("user_id = 'U-12345'")
关键:不只是"标记删除",还要物理从磁盘删除(GDPR 要求)。
对 Iceberg:删除写到 Delete File → 下次 compaction 物理合并 → expire_snapshots 后物理清除。
实现 5 · 加密¶
两类:
| 类型 | 做法 |
|---|---|
| In-Transit | HTTPS / TLS 1.2+ · 集群内 mTLS |
| At-Rest | S3 SSE(AES-256)· KMS 密钥 · Client-side encryption(Iceberg 支持) |
| Column-level | 敏感列单独密钥(Iceberg 支持) |
实现 6 · 审计日志¶
-- Audit log 作为 Iceberg 表
CREATE TABLE audit.access_log (
event_ts TIMESTAMP,
user_id STRING,
operation STRING, -- SELECT / INSERT / DELETE / SHARE / ...
catalog STRING,
schema STRING,
table STRING,
columns ARRAY<STRING>,
row_count BIGINT,
query_text STRING,
client_ip STRING,
success BOOLEAN
) USING iceberg
PARTITIONED BY (days(event_ts));
所有引擎(Trino / Spark / DuckDB 通过 Catalog)查询 → 写入 audit。
3. 跨境传输¶
欧美之间(Schrems II 后)¶
2020 Schrems II 判决让 Privacy Shield 无效。目前方案:
- Standard Contractual Clauses (SCC):合同承诺 GDPR 级别保护
- Transfer Impact Assessment (TIA):评估目的地法律风险
- Supplementary measures(加密 / 假名化)
实务: - Anthropic、OpenAI 的欧洲客户,数据在 EU-hosted instances - AWS / GCP 提供 EU region + data residency 承诺
中国出境¶
需要: - CAC 安全评估(大规模 / 敏感数据) - 个人信息保护认证(中等规模) - 标准合同(小规模)
工程手段: - 关键数据本地化(中国业务用中国区域) - Cross-region 流动经审批路径 - 数据分级 + 出境清单 管理
4. AI 合规叠加(2024-2026 重点)¶
AI 法规2024-2026 爆发 · 本节详细讲工程影响。Red Teaming 方法论和 Guardrails 工具见 ai-workloads/guardrails §7。
4.1 EU AI Act(2024-08 生效 · 2026-08 全量执行)¶
全球最严格的 AI 法规。核心是风险分级:
| 风险级 | 定义 | 工程要求 |
|---|---|---|
| Unacceptable Risk | 社会评分 · 实时生物识别执法 · 操纵人类行为 | 禁止 |
| High Risk | 招聘 · 信贷 · 执法 · 教育 · 医疗决策 · 关键基础设施 | 严格监管(见下方详细) |
| Limited Risk | 聊天机器人 · 深度伪造 | 透明度要求(告知用户是 AI) |
| Minimal Risk | 游戏 AI · 垃圾邮件过滤 | 无特殊要求 |
High Risk 系统工程要求(对数据平台影响最大):
- Risk Management System · 系统化风险识别 / 评估 / 缓解流程
- Data Governance · 训练 / 验证 / 测试数据的质量 + 偏见检查
- Technical Documentation(必须有 Model Card + 训练数据描述)· 见 ml-infra/model-registry §合规 artifact
- Record-Keeping · 自动日志保存 · 用于事后审计
- Transparency · 使用者理解系统输出
- Human Oversight · HITL · 人可以停掉 / 审核
- Accuracy · Robustness · Cybersecurity
处罚:最高 3500 万欧元或全球营业额 7%(更严 GDPR)。
4.2 NIST AI Risk Management Framework(AI RMF · 2023)¶
美国联邦层面的 AI 风险管理框架(非法律但政府采购要求):
AI RMF 四功能: - Govern · 组织治理 AI 风险 - Map · 识别 AI 使用场景和风险 - Measure · 测量风险(准确性 · 偏见 · 鲁棒性 · 可解释性 · 隐私) - Manage · 优先级排序 · 分配资源 · 缓解
工程对应:Model Card + 自动评估 + Fairness subgroup 监控 + 文档。
4.3 中国《生成式 AI 服务管理办法》(2023-07 生效)¶
中国针对生成式 AI 的专门法规:
核心要求: - 备案 · 提供服务需向网信办备案 - 数据合规 · 训练数据来源合法 · 不侵犯知识产权 - 内容安全 · 输出不得生成违法有害内容 - 用户标识 · 生成内容明示为 AI 生成 - 个人信息 · 不得非法处理个人信息 - 未成年人保护 · 防沉迷
工程对应: - 内容过滤(见 ai-workloads/guardrails) - 输出水印 / 标识 - 训练数据来源审计 - 用户行为日志保存
更宽:还有《互联网信息服务算法推荐管理规定》(2022)· 《互联网信息服务深度合成管理规定》(2023)· 《生成式 AI 服务管理办法》(2023)· 三者组合。
4.4 AI 供应链合规(2024-2026 新话题)¶
模型 License 合规是 AI 供应链核心问题:
- Llama 3 Community License:7 亿 MAU 上限(超限要单独谈)· 不得训练竞品 LLM
- Gemma Terms:相对宽松但有使用政策
- Mistral(开源系列):Apache 2.0 · 商用友好
- Qwen / DeepSeek / Baichuan · 各版本不同
工程对应: - Model Registry 强制 license 元数据(见 ml-infra/model-registry) - Fine-tuned 模型继承 base license 限制 - 自动扫描(MAU 接近限制告警)
4.5 AI 系统的典型合规清单¶
对应 EU AI Act High Risk 系统 · 工程 checklist:
- Model Card 完整(预期用途 / 限制 / 训练数据)
- Fairness subgroup 监控(demographic parity / equal opportunity)
- Drift 监控 + 告警
- Human-in-the-loop 机制(高风险决策可人工 override)
- 审计日志(模型输入输出完整留存 ≥ 3 年)
- 透明度(用户知道这是 AI 决策)
- Red Teaming 报告(安全测试)
- 训练数据来源合规证明
- 数据删除权(GDPR 的 Right to be forgotten · 叠加 AI 场景)
- Unlearning 策略(虽然技术不成熟 · 合规期待)
5. SOC 2 落地要点¶
企业客户最常要求。Type II 审计(6-12 月期)是真正有价值的。
五个 Trust Principle:
| 核心控制 | |
|---|---|
| Security | 访问控制、加密、漏洞管理 |
| Availability | SLO、DR、Backup |
| Confidentiality | 分类、加密、NDA |
| Processing Integrity | 数据质量、自动化测试 |
| Privacy | Consent、访问请求、删除流程 |
工具:Vanta · Drata · SecureFrame(商业合规平台)帮做 SOC 2。
6. 合规与工程冲突的平衡¶
常见冲突¶
| 合规要求 | 工程影响 |
|---|---|
| 数据最小化 | 想留一切数据做分析 |
| 删除权 | 历史 snapshot 难处理 |
| 跨境限制 | 云成本多 region 部署 |
| 审计日志保留 | 存储成本 |
| 加密 | 延迟 + 运维 |
平衡原则¶
- 分级:不是所有数据都要最高合规,按分类区分
- 尽量自动化:手动合规成本爆
- 影响评估:重大变更走 DPIA
- 合规工具链一次投入:省却每个项目重复做
7. 陷阱¶
- "我们没欧洲用户":但 B 端客户有 → 传染合规要求
- Audit log 不保留:事故发生后查不到原因 → 监管重罚
- Iceberg 旧 snapshot 含被删数据:
expire_snapshots必须跑 - 向量库没删除:LanceDB / Milvus 里用户 embedding 还在
- 日志里 PII 明文:自己违法
- Cross-region 自动同步不加审批:数据悄悄出境
- 加密密钥管理差:KMS 配错权限 → 密钥泄露 = 全部数据泄露
- Consent 没记录:监管查同意证据拿不出
- SOC 2 纸面合规:证书有但实际控制缺失 → 真审计挂
8. 延伸阅读¶
- GDPR 官方全文 · HIPAA 官方
- 中国个保法 · 数据安全法
- NIST Privacy Framework
- AICPA SOC 2 指南
- Schrems II 判决
- Privacy Engineering: A Dataflow and Ontological Approach(Cranor, 2022)
- The Privacy Engineer's Manifesto(Dennedy et al.)
相关¶
- 数据治理 · 安全与权限 · 多租户
- ai-workloads/guardrails · Guardrails 工程 + §7 Red Teaming 方法
- TCO 与定价模型