当前在美国的反托拉斯试验强调了Google在培训其人工智能模型方面的做法。在问题的中心:在线发布的内容的使用,即使他们的作者明确拒绝将其用于此目的。
5月3日,作为在华盛顿联邦法院举行的听证会的一部分,负责Google DeepMind产品的副总裁Eli Collins证实了一个具有重大影响的技术点: 谷歌负责研究的团队可能会导致其人工智能产品,例如“ AI概述”,其发布者已要求将其排除在培训过程之外。 基于文件的排除过滤器 robots.txt,仅适用于DeepMind开发的模型。它不规范小组其他部门的用途,特别是负责搜索引擎的用途。
内容发布者的二进制选择
这种内部区别会产生一个奇异的情况。出版商有一种技术方式来报告他们的拒绝,以查看用于培训AI模型的内容:文件 robots.txt自网络开始以来,广泛使用了引擎的索引。然而, Google表示,只有当这些内容也被排除在搜索引擎中的索引之外时,才有可能排除IA培训内容。
换句话说,发布者必须选择: 接受他们的内容参与Google AI产品的培训,或放弃其在引擎中的可见性。 由于参考其流量和收入的不同,因此很难仲裁的困境很难进行仲裁。
大量数据量,部分过滤
听证会上发表的内部文件显示,在应用排除过滤器后,Google将在2024年8月撤出800亿个“令牌”(文本单位)。此操作标志着尝试考虑出版商的偏好的尝试,但仅构成部分过滤器。 同一文档还提到了研究会话,YouTube视频和与Google服务的其他交互中的数据以改善模型。
这些行为数据通常不受与Web内容相同的控制机制的影响。他们为Google创建内部数据游戏以培训其AI具有结构性优势。
连续改进循环
AI在搜索结果中产生的响应 – 在常规链接之前,在页面的顶部 – 引起人们的关注。几个网站出版商认为 这些响应减少了重定向到其页面的点击次数,为了直接在研究界面中汇总的信息的好处。这种现象不仅强调了平台,而且突出了 减少了内容生产者的经济前景。
同时,AI模型从大规模曝光中集成到研究中,并通过用户与Google服务的相互作用不断改善。这个循环 – 数据收集,回应,关注,新培训 – 逐渐增强了提供的服务质量,并显着增强了Google的位置。
竞争性和法律维度
美国司法部提起的当前审判旨在确定Google在研究和人工智能方面的做法是否违反了反托拉斯法律。在提到的建议中: 禁止Google成为默认搜索引擎的合同,或出售他的Chrome浏览器。当局也希望 对如何通过研究收集的数据施加限制可用于引起AI模型。
在听证会上,代表司法部的戴安娜·阿吉拉尔(Diana Aguilar)引用了一个内部文件,其中deepmind首席执行官Demis Hassabis提到了从搜索引擎中驱动模型的模型的可能性,以评估所获得的改进。
仍然模糊的法规
该案例说明了AI周围的治理机制的复杂性,以及监管机构很难遵循实践的快速发展。如果是 robots.txt 仍然是监督索引的有用工具, 面对AI整合到研究界面中,它似乎不足。
该审判开幕的辩论超出了Google的唯一情况。 它质疑技术公司可以从资源中构成和利用竞争优势的方式,这些资源是公共领域或第三方制作的一部分。它还提出了一个有效监管的问题,能够将AI的合法用途与可以加强统治情况的实践区分开来。