大型(LLM)语言模型的兴起,例如GPT,Llama或Mistral,标志着语言处理自动化的转折点。他们理解,合成或生成文本的能力是前所未有的。但是它们的有效性是基于一个大规模的训练阶段,通常是不透明的,这构成了一个基本问题: 我们可以在欧洲使用个人数据来培训LLM吗?
一个严格的法律框架,经常被误解
GDPR的第4条将个人数据定义为 与已识别或可识别人有关的任何信息。因此,培训一个模型,其中包含名称,地址,标识符或健康数据的电子邮件,CVS,Slack交换或HR文档是个人数据的处理。
这种治疗启动了几项义务:
- 安排 法律依据 (合法的利益,同意,执行合同,法律义务或重要利益)。
- 通知有关的人 治疗的目的。
- 最小化 使用的数据(比例原理)。
- 保证安全 治疗并防止任何泄漏或重新识别。
- 允许行使擦除权。
但是,在LLM的情况下 这些义务中的大多数变得极为困难 一旦模型中摄入数据。
学习逻辑:监管黑匣子
与搜索引擎不同,LLM 不要索引 内容:他 编码 通过数十亿个参数的统计表示。这先验阻止直接识别或从模型中提取个人数据。但是,经验测试表明:
- 一些提示允许 重新注射识别数据。
- LLM可以 幻觉 他们的培训语料库中存在的电话号码或名称。
- 他是 几乎不可能解散模型 不完全反弹。
原则 设计的隐私 因此,如果这些预防措施尚未集成,很难应用 前 训练。
具体案例和相关风险
🟠 案例1:公司的内部数据
一家公司希望在其内部交易所(支持票,合同,电子邮件)上对LLM进行微调。如果她没有获得有关员工或客户的明确同意,则违反了GDPR。即使有本地住宿,这种使用仍然是非法的,没有明确的法律依据。
🟠 案例2:网络上的公共数据
许多培训基地都结合了来自Wikipedia,Github,Stackoverflow或Common Crawl的数据。但是,事实是公开的简单事实 不取消其个人角色。例如,可以将论坛用户的化名连接到一个人。
🔴 案例3:开源预培训模型
如果公司使用已经培训的开源模型(例如Llama,Falcon),则 继承法律风险 如果已将个人数据非法纳入其中。
哪些技术和运营解决方案?
1。 数据预处理(过滤,匿名化)
最重要的是,必须识别和清洁 个人数据。这意味着:
- 检测指定实体(NER)。
- 删除或假名敏感元素。
- 检查语料库的起源和合法性。
极限:匿名化很少是完美的。与其他数据的交叉可以允许重新识别。
2。 替代方法的使用:抹布(检索演示生成)
该模型不是 未经敏感数据训练,但他通过外部纪录片基础动态访问它。
示例:LLM尚未学会合同的内容,但可以在提示时通过内部搜索引擎访问它。这些信息仍在定位,可以随时修改或删除。
3。 罚款教程和主权住宿
当需要进行内部培训时,必须:
- 被执行 在受控环境中 (受信任的本地或云)。
- 依靠有记录的治疗 法律基础 已确立的。
- 集成 治疗登记册 特定的GDPR。
治理和责任
🔸谁负责?
- 这 控制器 (通常是用户公司)。
- 这 模型供应商 (编辑或集成器)。
- 这 分包商 提供基础架构或云服务。
🔸涉及的风险:
- 金融制裁(最多占全球营业额的4%)。
- 民事诉讼(如果造成隐私损失)。
- 失去信心或图像。
还有什么?培训诉讼
在美国,集体诉讼反对OpenAI,Google或Meta。申诉人未经同意就谴责培训(作品,照片,新闻内容)。在欧洲, 数据保护当局 (CNIL,EDPS)仔细检查LLM治疗方法,尤其是在应用 数据治理法 和 AI行为。
概括
元素 | 主要风险 | 推荐解决方案 |
---|---|---|
人力资源数据培训 | 侵犯被遗忘的权利 | 匿名或带有控制访问的抹布 |
使用公共数据 | 可能的重新识别 | 事先同意或排除 |
开源预培训模型 | 未知个人数据的封装 | 语料库审核,幻觉测试 |
用户请求(提示) | 敏感数据的非自愿启示 | 胶卷过滤,审核日志,监视 |
综上所述
LLM个人数据培训 不禁止,但他是 严格监督。公司现在必须将LLM视为魔术盒,而是 高风险数据处理。在没有强大的治理,数据集审核和基础设施控制的情况下,这些模型的使用可能会暴露出重大的制裁。