Google将网络回收为AI，即使说没有

当前在美国的反托拉斯试验强调了Google在培训其人工智能模型方面的做法。在问题的中心：在线发布的内容的使用，即使他们的作者明确拒绝将其用于此目的。

5月3日，作为在华盛顿联邦法院举行的听证会的一部分，负责Google DeepMind产品的副总裁Eli Collins证实了一个具有重大影响的技术点： 谷歌负责研究的团队可能会导致其人工智能产品，例如“ AI概述”，其发布者已要求将其排除在培训过程之外。 基于文件的排除过滤器 robots.txt，仅适用于DeepMind开发的模型。它不规范小组其他部门的用途，特别是负责搜索引擎的用途。

内容发布者的二进制选择

这种内部区别会产生一个奇异的情况。出版商有一种技术方式来报告他们的拒绝，以查看用于培训AI模型的内容：文件 robots.txt自网络开始以来，广泛使用了引擎的索引。然而， Google表示，只有当这些内容也被排除在搜索引擎中的索引之外时，才有可能排除IA培训内容。

换句话说，发布者必须选择： 接受他们的内容参与Google AI产品的培训，或放弃其在引擎中的可见性。 由于参考其流量和收入的不同，因此很难仲裁的困境很难进行仲裁。

大量数据量，部分过滤

听证会上发表的内部文件显示，在应用排除过滤器后，Google将在2024年8月撤出800亿个“令牌”（文本单位）。此操作标志着尝试考虑出版商的偏好的尝试，但仅构成部分过滤器。 同一文档还提到了研究会话，YouTube视频和与Google服务的其他交互中的数据以改善模型。

这些行为数据通常不受与Web内容相同的控制机制的影响。他们为Google创建内部数据游戏以培训其AI具有结构性优势。

连续改进循环

AI在搜索结果中产生的响应 – 在常规链接之前，在页面的顶部 – 引起人们的关注。几个网站出版商认为 这些响应减少了重定向到其页面的点击次数，为了直接在研究界面中汇总的信息的好处。这种现象不仅强调了平台，而且突出了 减少了内容生产者的经济前景。

同时，AI模型从大规模曝光中集成到研究中，并通过用户与Google服务的相互作用不断改善。这个循环 – 数据收集，回应，关注，新培训 – 逐渐增强了提供的服务质量，并显着增强了Google的位置。

竞争性和法律维度

美国司法部提起的当前审判旨在确定Google在研究和人工智能方面的做法是否违反了反托拉斯法律。在提到的建议中： 禁止Google成为默认搜索引擎的合同，或出售他的Chrome浏览器。当局也希望 对如何通过研究收集的数据施加限制可用于引起AI模型。

在听证会上，代表司法部的戴安娜·阿吉拉尔（Diana Aguilar）引用了一个内部文件，其中deepmind首席执行官Demis Hassabis提到了从搜索引擎中驱动模型的模型的可能性，以评估所获得的改进。

仍然模糊的法规

该案例说明了AI周围的治理机制的复杂性，以及监管机构很难遵循实践的快速发展。如果是 robots.txt 仍然是监督索引的有用工具， 面对AI整合到研究界面中，它似乎不足。

该审判开幕的辩论超出了Google的唯一情况。 它质疑技术公司可以从资源中构成和利用竞争优势的方式，这些资源是公共领域或第三方制作的一部分。它还提出了一个有效监管的问题，能够将AI的合法用途与可以加强统治情况的实践区分开来。