OpenAI 刚刚推出了名为 GPT-5.4 的新一代模型,被描述为“我们专业工作中性能最高、效率最高的前沿模型”。该公司声称将其在推理、编程和能够与 IT 工具和环境交互的软件代理方面的最新进展整合到一个架构中。
除了产品发布之外,OpenAI 出版物还基于一系列密集的基准测试和评估,旨在展示与前几代产品相比的质的飞跃。这些数字的真正含义还有待理解:它们是否展示了重大的技术变革,或者它们是否参与了现在展示人工智能模型性能的经典练习?
旨在产生工作的模型
GPT 5.4 并不是一个简单的会话改进,而是一个旨在生成专业交付成果的工具:财务电子表格、演示文稿、法律分析或结构化文档。
在官方公告中,该公司将该模型的目标总结如下:
🚨 智能工作
- MISTRAL – 客户经理,企业,法国 – 巴黎
- ANTHROPIC – 初创公司合作伙伴 – 法国和南欧
- 背景 – 人力资源总监 – 人力资源总监
- 综合理工学院 – 国际关系主任/副主任(F/M)
- CLAROTY — 销售开发代表
- FRACTTAL — 客户经理(法国)
- BRICKSAI — 创始增长经理
👉 在 DECODE MEDIA 招聘板上找到我们所有的职位
📩 您正在招聘并想加强您的雇主品牌吗?发现我们的合作伙伴优惠
“GPT-5.4 将我们在推理、编程和代理工作流程方面的最新进展汇集到一个单一的前沿模型中。”
换句话说,这个承诺基于三个维度的融合:推理能力、编写代码和通过软件工具执行任务。
基准 GDP值是 OpenAI 用来评估 44 个职业的专业交付成果的指标之一。 GPT 5.4 实现了这一点 83% 胜率或与专业人士相当, 反对 GPT-5.2 为 70.9%。
Mercor 首席执行官 Brendan Foody 表示:
“GPT-5.4 是我们迄今为止测试过的最好的模型。它现在在我们的 APEX-Agents 基准测试中占据第一名,该基准测试衡量模型在专业服务任务上的性能。”
工具和工作流程的使用取得明显进展
收益最显着的领域之一涉及工具的使用和复杂工作流程的执行。 OpenAI 表示,例如 GPT-5.4 获得 OSWorld 验证成功率为 75%,衡量代理通过屏幕截图和键盘鼠标操作操作计算环境的能力的基准。 GPT-5.2仅达到 47.3%。在 浏览比较,评估多步网络搜索的测试,已实现 GPT-5.4 82.7%, 反对 GPT-5.2 为 65.8%。
根据 OpenAI 的说法:
“GPT-5.4 在代理网络搜索方面表现更好。它能够在多个周期内继续搜索,以便识别最相关的来源。»
该公司还推出了一项名为 工具搜索,允许模型动态识别大量 API 目录中的相关工具,而无需加载初始上下文中的所有定义。在对 MCP Atlas 基准进行的评估中,OpenAI 表示这种方法将减少 使用的代币数量减少了 47% 且不损失精度。
某些技术基准的更细微收益
虽然某些指标明显取得进展,但其他领域的结果似乎较为温和,特别是在规划方面。
在 SWE-Bench Pro,评估真实软件开发问题模型的参考基准,GPT-5.4 实现 57.7%, 反对 GPT-5.3-Codex 为 56.8% 和 GPT-5.2 为 55.6%。进展是存在的,但与代理工作流程或网络导航中观察到的收益相比,仍然相对有限。在某些专门测试中,上一代甚至保持着轻微的优势。在 终端工作台2.0例如,GPT-5.3-Codex 仍然略微领先于 GPT-5.4。
这种情况说明了几代模型中可以观察到的趋势:新系统不再寻求主导每个孤立的基准,而是寻求提高整体多功能性。
可靠性显着提高
OpenAI 还声称降低了模型的事实错误率。据该公司称,在用户报告错误的一组匿名提示中:
“GPT-5.4 生成的单个陈述错误的可能性降低了 33%,其完整答案包含错误的可能性降低了 18%。”
如果这些数字表明取得了进展,则该公告没有具体说明绝对错误率或所使用的语料库的详细组成。
这新一代型号适合谁?
GPT-5.4明确针对企业,OpenAI将其描述为一个模型 “专为专业工作而设计”,能够产生与初级分析师或顾问相当的交付成果。
分配策略中出现三类用户。
第一个涉及咨询、金融、法律或战略领域的职业。评估中使用的示例(财务模型、法律合同或演示)与这些用途完全对应。
第二个目标是开发商。 GPT-5.4 部署在 API 和 Codex 中,具有多种功能,旨在构建能够使用外部工具、自动化工作流程或与软件接口交互的软件代理。
最后,OpenAI 明确针对组织。 GPT-5.4 已上市 团队、企业和教育,并计划集成到 Excel 等生产力工具中。
访问条款和定价
GPT-5.4 分布在多个选项中。在 ChatGPT 中,它显示为 GPT-5.4 思考,订阅者可以访问 ChatGPT Plus、团队版和专业版。更高效的版本, GPT-5.4 专业版保留用于订阅 专业版和企业版。该模型逐渐取代 GPT-5.2 Thinking,后者将在“旧模型”部分中保留几个月。
对于开发人员来说,GPT-5.4 可在 API 下的凭据下使用 gpt-5.4 和 gpt-5.4-pro。
该公告还伴随着价格上涨。在 API 中,入场价格从 每百万代币 1.75 至 2.50 美元,当退出价格达到 15美元, 反对 GPT-5.2 14 美元。 OpenAI 通过提高模型效率来证明这种增长是合理的,该模型将使用更少的代币来解决给定的任务。
竞争现已结构化
GPT-5.4 的推出正值几个主要参与者正在争夺人工智能模型领导地位的市场。
Anthropic 已成为该家族最可信的竞争对手之一 克洛德,以其长文档分析功能和面向安全的方法而闻名。
谷歌正在为自己开发 双子座,集成到 Google Workspace 生态系统中。这种方法的优点在于可以直接访问生产力工具(Gmail、文档或表格)和团队的研究基础设施。
微软正在采取不同的战略 副驾驶,直接集成到 Office 套件和 GitHub 等开发工具中。人工智能不再表现为自主应用程序,而是表现为所用软件的本机功能。
面对这些竞争对手,ChatGPT保留了几个优势:庞大的用户群、被开发者广泛采用的API以及能够覆盖大量用途的通用模型。但现在的竞争不再是模型的原始性能,而是它们与工作环境的集成。
在真正的进步和技术叙述之间
因此,GPT-5.4 的发布说明了人工智能模型发布中反复出现的模糊性。
所测量的进展,特别是在工具的使用、网络导航和复杂任务的执行方面,看起来是真实的。同时,性能的呈现基于一组基准,其阅读仍然是部分的,无法访问完整的协议。
在这种背景下,GPT-5.4 似乎并不标志着一个巨大的突破,而是在专业用途核心的语言模型的逐步集成方面又迈出了一步。