Anthropic Claude Opus 4.5 发布：与 ChatGPT 5.1 和 Google Gemini 3.0 相比如何

在过去几周谷歌和 OpenAI 发起人工智能猛攻之后，Anthropic 凭借 Claude Opus 4.5 进入了这个领域。 Anthropic 表示，它是世界上最先进的编码、自主代理和计算机使用任务模型。该版本标志着人工智能能力的重大飞跃，直接针对 OpenAI 的 ChatGPT 和谷歌的 Gemini 等竞争对手，在现实世界的工程和代理性能方面拥有更好的基准得分。

此次发布的核心是 Opus 4.5 在 SWE-bench Verified 上的性能，这是一个模拟现实世界软件工程挑战的基准。该模型达到了令人印象深刻的 80.9% 准确率，这是第一个突破 80% 阈值的模型，从而超越了 Google 的 Gemini 3 Pro 的 76.2% 和 OpenAI 的 GPT-5.1 Codex Max 的 77.9%。

这不仅仅是一次增量升级，它是人工智能的一个里程碑，它加速了其在代码生成和调试中的作用，有可能使曾经需要数小时人力的日常任务实现自动化。

Anthropic Claude Opus 4.5：它提供什么

在一项专为未来工程人员设计的 2 小时带回家考试中，Claude Opus 4.5 在技术技能和压力下的判断力方面甚至超越了顶尖的人类候选人。

“带回家的测试旨在评估时间压力下的技术能力和判断力，”Anthropic 在其新闻稿中指出。 “它不会测试候选人可能拥有的其他关键技能，例如协作、沟通或多年来发展的本能。但这一结果——人工智能模型在重要技术技能方面优于强大的候选人——引发了关于人工智能将如何改变工程这一职业的问题。”

对于代理 AI（独立运行以完成多步骤任务的系统）而言，Opus 4.5 在 τ2 基准评估中占据主导地位。该模型在模拟航空公司服务代理人处理困境客户的场景中，创造性地先升级舱位，然后再合法修改航班，解决了竞争对手可能会严格拒绝更改基本经济舱预订的问题。这展示了增强的推理能力和适应性，使其成为客户支持、虚拟助理和自动化工作流程中应用的理想选择。

Claude Opus 4.5 优先考虑安全

安全仍然是 Anthropic 方法的首要任务，Opus 4.5 被誉为该公司迄今为止最强大的一致性模型。它在抵抗即时注入攻击、欺骗人工智能做出有害行为的欺骗性输入方面显示出显着的进步。

该公司表示：“借助 Opus 4.5，我们在抵御即时注入攻击的鲁棒性方面取得了实质性进展，这种攻击会偷带欺骗性指令来欺骗模型做出有害行为。” “Opus 4.5 比业内任何其他前沿型号都更难通过快速注入来欺骗。”

Claude Opus 4.5 通过 Android 和 iOS 上的 Claude 应用程序、Claude 网站推出，并通过 API 直接向开发人员推出。企业用户的高级访问权限起价约为每月 20 美元，与之前的 Opus 迭代类似。免费套餐将提供有限的使用，以吸引个人创作者和爱好者。