聊天机器人时代的数据隐私

尤瓦尔·诺亚·哈拉里 (Yuval Noah Harari) 在他的最新著作《Nexus：从石器时代到人工智能的信息网络简史》中，分享了谷歌前副总裁兼工程研究员杰弗里·辛顿 (Geoffrey Hinton) 的有趣见解，杰弗里·辛顿被广泛认为是人工智能 (AI) 教父，事后看来，这似乎具有相当的战略意义。辛顿表示，谷歌几十年来向用户提供免费服务从来都不是真正的利他主义。这只是关于一件事：数据。

快进到当今时代，您会意识到这种吹嘘并非空穴来风，这些数据不仅为谷歌而且为当今所有大型科技公司提供了信息。政府即将发布 2023 年颁布的《数字个人数据保护法》(DPDP) 规则，该法案被视为一项具有里程碑意义的立法，旨在保护个人隐私并规范企业和平台对个人数据的不透明使用。问题是，通过 DPDP 所做的努力能否成功遏制或遏制这种做法，尤其是随着 ChatGPT、Gemini 等生成式人工智能 (GenAI) 平台的兴起。

让我们检查一下。 DPDP 法案的主要目的是建立一个关于如何收集、处理和保护个人数据的结构化框架。它要求法律规定的数据受托人组织在处理数据之前获得数据主体（用户）的知情、具体和明确的同意。该法律规定了数据访问、更正、删除、申诉补救的权利，并对处理敏感数据的实体施加了严格的责任。此外，DPDP 强调目的限制，这意味着为某一目的收集的数据在未经新同意的情况下不能随意改变用途，并强制执行严格的安全标准以保护数据免遭滥用或泄露。

问题就在这里。 ChatGPT 等 GenAI 平台的运行原理完全不同。他们收集大量的用户输入，例如问题、提示、对话等，以训练和完善生成响应、预测或建议的人工智能模型。在许多情况下，用户并不知道他们的数据在多大程度上被保留、重用或挖掘以提高平台的智能或创建新服务。所采用的同意机制通常很广泛，与很少有用户仔细审查的全面服务条款相关联。 AI 训练数据集的这种模糊性和动态性可能导致 DPDP 的知情和具体同意的核心原则实际上无效。

考虑用户与 GenAI 聊天机器人交互。用户可以提交涉及敏感个人信息的查询。根据 DPDP，法律要求平台明确说明如何使用这些数据，为除立即响应之外的任何目的获得明确同意，并允许用户控制其数据。然而，GenAI 系统通常将这些对话存储为训练输入，以改进机器学习模型，而无需精细的同意管理或数据隔离。这种缺乏透明度和控制的情况造成了 DPDP 保护措施可能被规避的情况——仅用于一次交互的数据可能会被重复用于更广泛的培训，从而可能使其面临风险或从未获得用户批准的用途。

显然，GenAI 平台的迅速出现带来了合规性挑战，DPDP 法案的现行规定可能无法完全解决。也就是说，这并不意味着人工智能和数字生态系统中个人数据的所有使用都会同样受到这种脱节的威胁。 DPDP 将继续保持强大实力的领域之一是有针对性的营销和直接消费者沟通。出于营销目的收集数据的平台和公司，无论是定向广告、产品推荐还是个性化销售推广，仍然需要遵守 DPDP 规则。有针对性的营销是一个更容易监控的用例，因为它通常涉及可审计的独特的、目的驱动的数据流。

然而，真正的挑战在于人工智能培训和营销数据使用之间的模糊界限。表面上为改善人工智能输出而收集的数据可以间接提供消费者分析，推动营销算法向用户提供量身定制的广告或优惠。这意味着 DPDP 将保留影响力，但需要复杂的执法工具和跨部门协调，以确保透明度和合规性。

因此，虽然 DPDP 法案通过校准技术创新和个人隐私权之间的平衡，无疑是数据治理的重要一步，但 GenAI 平台的指数级增长带来了复杂性，暴露了该法律当前的实施差距。

电子和信息技术部最近发布的《人工智能治理指南》报告恰恰承认了这种紧张局势。它认识到 DPDP 严格的同意和目的限制规范与 GenAI 的流动、多用途数据训练管道并不完全一致。为了解决这个问题，它提出了一种校准方法，包括提高人工智能服务提供商的透明度、加强申诉机制以及不断发展的同意管理和数据可移植工具。它还表明对修正案和跨部门监管协调的开放态度，随着生态系统的成熟，自愿合规框架可能会成为强制性的。

然而，这些措施在实践中能取得多大成功还有待观察。鉴于 GenAI 平台的全球架构及其快速发展的数据模型，确保有意义的个人数据保护可能比预期更具挑战性。无论未来走向如何，有一件事是肯定的——对于政府和公民来说，《DPDP法案》可能并不像人们想象的那么有效。