Aravind Srinivas 的 Perplexity AI 因数据抓取而被 Reddit 起诉，他表示，“我们会公平竞争，但不会……”

Perplexity AI 似乎再次陷入了涉及科技巨头名字的争议之中。社交媒体平台 Reddit 已对这家人工智能搜索初创公司和其他三家数据抓取公司提起联邦诉讼，从而升级了有关用于训练生成人工智能模型的互联网内容权利的法律斗争。

该诉状向纽约美国地方法院提起，指控被告从事工业规模的非法活动，以获取用户帖子和评论，违反美国版权法并规避数字防御。

该诉讼称 Perplexity 是新“数据洗钱经济”的“自愿客户”。 Reddit 点名了三名共同被告——立陶宛的 Oxylabs UAB、德克萨斯州的 SerpApi 和 AWMProxy（被描述为前俄罗斯僵尸网络）——据称他们试图绕过 Reddit 的反抓取技术。

Reddit 追捕 Perplexity 和其他公司的数据抓取

在诉讼中，Reddit 声称抓取公司规避了该公司的保护措施，并通过“规避谷歌的控制并直接从谷歌的搜索引擎结果中抓取 Reddit 内容”来提取内容。该公司表示，它能够通过在其平台上设置一个隐藏的“测试帖子”来证明这一点，该帖子后来出现在 Perplexity 生成的答案中。

Reddit 首席法务官 Ben Lee 表示，培训数据的压力“助长了工业规模的‘数据洗钱’经济”。 Reddit 庞大的人类讨论档案被认为非常有价值，该公司此前已与谷歌和 OpenAI 等主要参与者就其数据达成了利润丰厚的付费许可协议。该诉讼表明 Perplexity 选择获取“被盗数据”，而不是签订合法协议。

Reddit 正在寻求未具体说明的金钱赔偿和永久性法院命令，以阻止未经授权使用其内容，预计此案将进一步定义在公开网络数据上训练人工智能模型的法律标准。

困惑说它会公平竞争但不会屈服

在其 Reddit 子版块的一份公开声明中，Perplexity 公开了此次事件的后果，并制定了在不屈服于 Reddit 要求的情况下解决这一问题的计划。该初创公司在一篇详尽的帖子中表示，“每当有人问我们有关内容许可的问题时，我们都会解释说，Perplexity 作为一家应用层公司，不会在内容上训练人工智能模型。从来没有。所以我们不可能签署许可协议来这样做。一年前，在解释了这一点后，Reddit 坚持要求我们无论如何都要付费，尽管我们可以合法地访问 Reddit 数据。屈服于强硬策略并不是我们做生意的方式。”

随后，Perplexity 补充道，“我们总结了 Reddit 的讨论，并在答案中引用了 Reddit 的帖子，就像人们总是在这里分享帖子的链接一样。Perplexity 在人工智能中发明引用有两个原因：这样你就可以验证人工智能生成的答案的准确性，这样你就可以按照引用来了解更多信息并扩展你的好奇之旅。”

“Reddit 本周改变了主意，决定是否希望 Perplexity 用户在学习过程中找到你的公开内容。Reddit 认为这是他们的权利。但这与开放互联网相反。”Perplexity 在一份强有力的声明中表示。

Perplexity 表示，它不会屈服于像 Reddit 这样的大公司的需求，并且也会尽力帮助谷歌在这个过程中不被勒索。