在过去几周谷歌和 OpenAI 发起人工智能猛攻之后,Anthropic 凭借 Claude Opus 4.5 进入了这个领域。 Anthropic 表示,它是世界上最先进的编码、自主代理和计算机使用任务模型。该版本标志着人工智能能力的重大飞跃,直接针对 OpenAI 的 ChatGPT 和谷歌的 Gemini 等竞争对手,在现实世界的工程和代理性能方面拥有更好的基准得分。
此次发布的核心是 Opus 4.5 在 SWE-bench Verified 上的性能,这是一个模拟现实世界软件工程挑战的基准。该模型达到了令人印象深刻的 80.9% 准确率,这是第一个突破 80% 阈值的模型,从而超越了 Google 的 Gemini 3 Pro 的 76.2% 和 OpenAI 的 GPT-5.1 Codex Max 的 77.9%。
这不仅仅是一次增量升级,它是人工智能的一个里程碑,它加速了其在代码生成和调试中的作用,有可能使曾经需要数小时人力的日常任务实现自动化。
Anthropic Claude Opus 4.5:它提供什么
在一项专为未来工程人员设计的 2 小时带回家考试中,Claude Opus 4.5 在技术技能和压力下的判断力方面甚至超越了顶尖的人类候选人。
“带回家的测试旨在评估时间压力下的技术能力和判断力,”Anthropic 在其新闻稿中指出。 “它不会测试候选人可能拥有的其他关键技能,例如协作、沟通或多年来发展的本能。但这一结果——人工智能模型在重要技术技能方面优于强大的候选人——引发了关于人工智能将如何改变工程这一职业的问题。”
对于代理 AI(独立运行以完成多步骤任务的系统)而言,Opus 4.5 在 τ2 基准评估中占据主导地位。该模型在模拟航空公司服务代理人处理困境客户的场景中,创造性地先升级舱位,然后再合法修改航班,解决了竞争对手可能会严格拒绝更改基本经济舱预订的问题。这展示了增强的推理能力和适应性,使其成为客户支持、虚拟助理和自动化工作流程中应用的理想选择。
Claude Opus 4.5 优先考虑安全
安全仍然是 Anthropic 方法的首要任务,Opus 4.5 被誉为该公司迄今为止最强大的一致性模型。它在抵抗即时注入攻击、欺骗人工智能做出有害行为的欺骗性输入方面显示出显着的进步。
该公司表示:“借助 Opus 4.5,我们在抵御即时注入攻击的鲁棒性方面取得了实质性进展,这种攻击会偷带欺骗性指令来欺骗模型做出有害行为。” “Opus 4.5 比业内任何其他前沿型号都更难通过快速注入来欺骗。”
Claude Opus 4.5 通过 Android 和 iOS 上的 Claude 应用程序、Claude 网站推出,并通过 API 直接向开发人员推出。企业用户的高级访问权限起价约为每月 20 美元,与之前的 Opus 迭代类似。免费套餐将提供有限的使用,以吸引个人创作者和爱好者。