他规避了 ChatGPT 的保障措施:Denis Shilov 筹集了 935 万欧元

专门从事人工智能模型监管和安全的初创公司White Circle宣布融资1100万美元,约合935万欧元。此次巡演汇聚了全球人工智能生态系统的几位重要人物,包括 Romain Huet、Dirk Kingma、Guillaume Lample、Thomas Wolf、François Chollet、Olivier Pomel 和 Paige Bailey。

White Circle 由 Denis Shilov 创立,开发了一个平台,允许公司实时监控其人工智能模型和自主代理的行为。该初创公司声称已经处理了超过 10 亿个 API 请求,其客户中有多家大型国际集团,其中包括两家主要的全球数字银行以及 Lovable。

这种提升是随着公司加速在关键环境中部署人工智能代理而出现的,无论是在客户关系、财务、网络安全、人力资源甚至软件自动化领域。市场正逐步从模型的开发转向对模型的运营监管。

在White Circle之前,Denis Shilov因在2024年发布了能够绕过市场上主要生成模型安全机制的“通用越狱”而在AI生态系统中出名。据该公司称,这种提示使得获得通常被 OpenAI 或 Anthropic 等系统阻止的响应成为可能。旨在防止生成危险、非法或敏感内容的保障措施可以通过一条指令来推翻。

这篇帖子迅速走红,浏览量超过 140 万次。也引起了美国多家AI实验室的关注。在推出 White Circle 之前,Denis Shilov 随后受邀参加 Anthropic 的 bug 赏金计划。

White Circle 构建了一个可观察和控制层,旨在适应人工智能模型和业务应用程序之间的关系。其平台实时分析模型的输入和输出,以检测幻觉、识别即时注入、监控行为偏差、阻止恶意行为,甚至防止敏感数据泄露。

公司可以制定自己的控制政策来确定允许或禁止的内容。 White Circle 还提供自动限制、阻止或禁止机制。该系统旨在通过单一 API 与不同的人工智能模型提供商合作。该公司声称支持 150 多种语言。

在 White Circle 描述的用途中,该平台可以防止人工智能代理执行破坏性命令,检测财务工作流程中的异常行为或识别旨在规避模型内部规则的操纵尝试。

这家初创公司的发展说明了生成式人工智能市场的快速发展。在 GPU 模型和基础设施的竞争之后,围绕生产中人工智能系统的监督出现了一个新的领域。低代码工具和“vibe编码”平台的普及正在大大加速人工智能应用在企业的部署。非专业团队现在可以在几个小时内将模型连接到数据库、CRM、ERP 或财务工具。

然而,这种民主化创造了一个新的风险领域。公司现在必须管理能够与关键系统交互的代理,而无需始终清楚地了解其实际行为。这些风险涉及敏感数据的暴露以及操作偏差、恶意操纵或执行不可预见的行为。

白圈正是将自己定位在运营监管这一层。与云市场的相似之处是显而易见的。在 2010 年代云基础设施爆炸式增长之后,Datadog 或 Sentry 等公司已将自己确立为监控分布式架构的重要可观察层。 White Circle 现在正试图为人工智能系统填补类似的角色。

该初创公司还寻求通过发布有关生成模型相关风险的研究来增强其技术可信度。 2025年,它发布了“CircleGuardBench”基准,旨在评估人工智能调节模型在现实条件下的稳健性。最近,White Circle 提出了“KillBench”,这是一项基于 OpenAI、Google、Anthropic 和 xAI 等 15 个模型进行的超过一百万次实验的研究。

据该初创公司称,这项工作强调了与国籍、宗教、外貌甚至某些文化标志相关的行为偏见。该研究还声称,企业人工智能集成中使用的某些结构化格式大大减少了模型中内置的选择退出机制。

白圈的取消最终是在人工智能监管要求逐步收紧的背景下进行的。公司现在必须证明他们有能力追踪模型的决策、控制代理的行为、记录偏差并限制与自动化相关的法律风险。

随着能够直接与操作系统交互的人工智能代理的出现,模型的行为监控可能成为企业人工智能架构的结构组成部分。 White Circle 正是押注于这一发展。