生成式人工智能和数据经纪,网络安全的新盲点

生成式人工智能解决方案的兴起正在催生一种新型数据,但在隐私保护的争论中,这种数据在很大程度上仍被低估。尤其是现在这些对话是结构化的,有时是亲密的,是由用户毫无过滤地与被视为中立和安全的助手交谈的。这种特别丰富的数据对于数据经纪人来说是前所未有的价值来源,他们很快就对它产生了兴趣。

比点击流更丰富的数据

在建立了一个主要基于导航信号(浏览的页面、点击、花费的时间、购买旅程)的经济之后,数据行业主要关注于推断行为,很少关注捕捉明确的意图。与人工智能的对话深刻地改变了这种逻辑以及所收集信息的本质。

提示揭示了用户想要理解、调解或产生的内容。它可以揭示一个专业项目、一个战略反思、一个个人关注点或一个未完成的购买意图。对于专门从事数据分析和转售的玩家来说这是一个机会,其中一些人很快就看到了潜力。通过什么机制可以捕获这些对话还有待理解。

浏览器是人工智能使用的必备交叉点

在大多数情况下,对大型人工智能聊天机器人的访问是通过浏览器进行的。 ChatGPT、Gemini、Claude、Copilot 或 Perplexity 与工作工具、消息传递或 SaaS 平台一起使用,浏览器的这种中心地位使其成为理想的收集表面。

浏览器扩展开始发挥作用,并发挥关键作用。它们的安装目的是阻止广告、安全浏览或提供免费 VPN,它们拥有广泛的权限,可以访问页面内容、读取 DOM,并能够注入或拦截代码。对于用户来说,这些机制仍然是抽象的,甚至是不可见的,即使它们以纯文本形式提供对对话的直接访问,甚至在人工智能平台本身处理或保护它们之前也是如此。

从免费工具到工业数据管道

免费扩展长期以来一直是大量信息收集的特权领域。 VPN、广告拦截器或安全工具依赖于非常广泛的分布,通常不会为用户提供直接的经济补偿。在这个模型中,有一个公式总结了起作用的经济逻辑:当免费时,用户就成为了产品。

在网络安全研究人员记录的几个案例中,所实施的机制依赖于相同的技术后端,该技术后端支持多个扩展,有时以不同的品牌分发。集成的 SDK 可以汇集集合、聚合来自数百万个浏览器的数据,然后对其进行结构化。

必须记住的是,这种捕获既不是基于复杂的攻击,也不是基于规避人工智能出版商的安全系统。一旦安装了具有适当权限的扩展,它就会直接在用户的本地环境中在上游执行。

一旦收集,对话就不会以原始状态使用。它们被分析、分割,然后通过与其他行为信号交叉来丰富。然后,这些数据将提供给经济、营销或竞争情报产品。对于这些服务的客户来说,问题不在于能否进入个别交易所,而在于识别具有高战略价值的趋势、新出现的意图和微弱信号。然而,同样的操作方法可能会被恶意扩展劫持,这次的目的是直接利用敏感的个人信息。

为什么人工智能对话比历史数据更有价值

这种对话数据的价值取决于几个因素,首先是其声明性。与观察到的行为相反,用户明确地表达了他们的需求,通常没有过滤,但也表达了他们的新鲜感,对话反映了当前的担忧,有时与当前的决策相关。

它们也很难通过其他方式重建,远远超出 cookie 或广告标识符所允许的范围。 cookie 可以被删除,标识符可以重置,对话可以提供更深入的分析。

在法规重点关注传统数据获取的背景下,这种新原材料似乎是一个特别有吸引力的替代品。

持续存在的监管灰色地带

特别是因为通过扩展程序收集人工智能对话属于法律灰色地带。同意通常是隐含的,在难以阅读或什至不阅读的使用条件下被淡化。特别是因为软件更新可以在用户没有明确信息的情况下引入新功能。

处理目的的问题尖锐地出现。 Chrome Web Store 或 Edge Add-ons 等分发平台扮演受信任第三方的角色,但无法确保在验证后持续监控扩展程序的实际行为。

企业面临的风险被低估

对于公司来说,迄今为止还很少发现这种风险,本文的目的是提高一般管理层对这一关键主题的认识。与人工智能的对话经常混合个人数据、公司信息、战略思想或客户信息。大家都会明白,这里造成问题的不是AI模型,而是它们的使用环境。

如果今天有必要限制扩展的使用,收紧浏览器配置以支持隔离的人工智能环境,那么提高员工的意识并培训员工这方面的知识被证明是保护自己的最佳方式。