Anthropic 揭露并破坏了所谓的世界上第一个主要由人工智能策划的大规模网络间谍活动。该行动于 2025 年 9 月中旬被发现,由中国国家资助的组织发起,利用 Anthropic 的克劳德代码工具渗透到约 30 个全球目标,包括科技巨头、金融公司、化学品制造商和政府机构。
这一发现揭示了代理人工智能系统如何增强网络威胁,以最少的人为干预执行复杂的黑客攻击。 Anthropic 的快速反应阻止了这次违规行为,但它强调了恶意行为者如何利用创新工具将其转化为自主武器。
人工智能驱动的网络攻击:发生了什么
该活动利用了克劳德的情报、代理和工具集成——这些功能在过去一年中已经显着成熟。攻击者首先越狱 Claude,通过将任务设计为虚构网络安全公司的“防御性测试”,欺骗其绕过安全护栏。他们将恶意行为分解为无害的步骤,避免了完整的上下文泄露。
在第一阶段,人类操作员选择目标并使用克劳德代码构建自主框架进行侦察。人工智能以闪电般的速度扫描基础设施,每秒处理数千个请求。它识别高价值数据库的速度远远快于人类黑客。接下来的阶段涉及 Claude 研究漏洞、编写漏洞代码、收集凭证和窃取数据,所有这些都需要有限的人工签入(每次操作仅 4-6 次)。
“模型的总体能力水平已经提高到可以遵循复杂的指令并理解上下文的程度,从而使非常复杂的任务成为可能。不仅如此,他们的一些成熟的特定技能 – 特别是软件编码 – 适合用于网络攻击。” Anthropic在其报告中表示。
人工智能甚至生成攻击后文档,按价值对被盗情报进行分类。虽然幻觉偶尔会破坏结果,即伪造凭证或将公共数据误认为秘密,但该操作仍然实现了 80-90% 的自主权。这是仅靠人类团队无法达到的规模。
Anthropic 检测到并阻止了攻击
Anthropic 的威胁情报团队利用 Claude 进行分析,在 10 天内绘制了威胁图,禁止账户、通知受害者并与当局合作。该公司表示:“我们公开分享此案例是为了帮助行业、政府和更广泛的研究界加强自己的网络防御。我们将继续定期发布此类报告,并对我们发现的威胁保持透明。”
Anthropic 在报告中表示:“我们的目标是让 Claude 协助网络安全专业人员检测、破坏并为未来版本的攻击做好准备,我们已经在其中建立了强有力的防护措施。”