ChatGPT 5.4：真正的产品飞跃，还是包装标杆？

OpenAI 刚刚推出了名为 GPT-5.4 的新一代模型，被描述为“我们专业工作中性能最高、效率最高的前沿模型”。该公司声称将其在推理、编程和能够与 IT 工具和环境交互的软件代理方面的最新进展整合到一个架构中。

除了产品发布之外，OpenAI 出版物还基于一系列密集的基准测试和评估，旨在展示与前几代产品相比的质的飞跃。这些数字的真正含义还有待理解：它们是否展示了重大的技术变革，或者它们是否参与了现在展示人工智能模型性能的经典练习？

旨在产生工作的模型

GPT 5.4 并不是一个简单的会话改进，而是一个旨在生成专业交付成果的工具：财务电子表格、演示文稿、法律分析或结构化文档。

在官方公告中，该公司将该模型的目标总结如下：

🚨 智能工作

MISTRAL – 客户经理，企业，法国 – 巴黎
ANTHROPIC – 初创公司合作伙伴 – 法国和南欧
背景 – 人力资源总监 – 人力资源总监
综合理工学院 – 国际关系主任/副主任（F/M）
CLAROTY — 销售开发代表
FRACTTAL — 客户经理（法国）
BRICKSAI — 创始增长经理

👉 在 DECODE MEDIA 招聘板上找到我们所有的职位

📩 您正在招聘并想加强您的雇主品牌吗？发现我们的合作伙伴优惠

“GPT-5.4 将我们在推理、编程和代理工作流程方面的最新进展汇集到一个单一的前沿模型中。”

换句话说，这个承诺基于三个维度的融合：推理能力、编写代码和通过软件工具执行任务。

基准 GDP值是 OpenAI 用来评估 44 个职业的专业交付成果的指标之一。 GPT 5.4 实现了这一点 83% 胜率或与专业人士相当，反对 GPT-5.2 为 70.9%。

Mercor 首席执行官 Brendan Foody 表示：

“GPT-5.4 是我们迄今为止测试过的最好的模型。它现在在我们的 APEX-Agents 基准测试中占据第一名，该基准测试衡量模型在专业服务任务上的性能。”

工具和工作流程的使用取得明显进展

收益最显着的领域之一涉及工具的使用和复杂工作流程的执行。 OpenAI 表示，例如 GPT-5.4 获得 OSWorld 验证成功率为 75%，衡量代理通过屏幕截图和键盘鼠标操作操作计算环境的能力的基准。 GPT-5.2仅达到 47.3%。在 浏览比较，评估多步网络搜索的测试，已实现 GPT-5.4 82.7%，反对 GPT-5.2 为 65.8%。

根据 OpenAI 的说法：

“GPT-5.4 在代理网络搜索方面表现更好。它能够在多个周期内继续搜索，以便识别最相关的来源。»

该公司还推出了一项名为 工具搜索，允许模型动态识别大量 API 目录中的相关工具，而无需加载初始上下文中的所有定义。在对 MCP Atlas 基准进行的评估中，OpenAI 表示这种方法将减少 使用的代币数量减少了 47% 且不损失精度。

某些技术基准的更细微收益

虽然某些指标明显取得进展，但其他领域的结果似乎较为温和，特别是在规划方面。

在 SWE-Bench Pro，评估真实软件开发问题模型的参考基准，GPT-5.4 实现 57.7%，反对 GPT-5.3-Codex 为 56.8% 和 GPT-5.2 为 55.6%。进展是存在的，但与代理工作流程或网络导航中观察到的收益相比，仍然相对有限。在某些专门测试中，上一代甚至保持着轻微的优势。在 终端工作台2.0例如，GPT-5.3-Codex 仍然略微领先于 GPT-5.4。

这种情况说明了几代模型中可以观察到的趋势：新系统不再寻求主导每个孤立的基准，而是寻求提高整体多功能性。

可靠性显着提高

OpenAI 还声称降低了模型的事实错误率。据该公司称，在用户报告错误的一组匿名提示中：

“GPT-5.4 生成的单个陈述错误的可能性降低了 33%，其完整答案包含错误的可能性降低了 18%。”

如果这些数字表明取得了进展，则该公告没有具体说明绝对错误率或所使用的语料库的详细组成。

这新一代型号适合谁？

GPT-5.4明确针对企业，OpenAI将其描述为一个模型 “专为专业工作而设计”，能够产生与初级分析师或顾问相当的交付成果。

分配策略中出现三类用户。

第一个涉及咨询、金融、法律或战略领域的职业。评估中使用的示例（财务模型、法律合同或演示）与这些用途完全对应。

第二个目标是开发商。 GPT-5.4 部署在 API 和 Codex 中，具有多种功能，旨在构建能够使用外部工具、自动化工作流程或与软件接口交互的软件代理。

最后，OpenAI 明确针对组织。 GPT-5.4 已上市 团队、企业和教育，并计划集成到 Excel 等生产力工具中。

访问条款和定价

GPT-5.4 分布在多个选项中。在 ChatGPT 中，它显示为 GPT-5.4 思考，订阅者可以访问 ChatGPT Plus、团队版和专业版。更高效的版本， GPT-5.4 专业版保留用于订阅 专业版和企业版。该模型逐渐取代 GPT-5.2 Thinking，后者将在“旧模型”部分中保留几个月。

对于开发人员来说，GPT-5.4 可在 API 下的凭据下使用 gpt-5.4 和 gpt-5.4-pro。

该公告还伴随着价格上涨。在 API 中，入场价格从 每百万代币 1.75 至 2.50 美元，当退出价格达到 15美元，反对 GPT-5.2 14 美元。 OpenAI 通过提高模型效率来证明这种增长是合理的，该模型将使用更少的代币来解决给定的任务。

竞争现已结构化

GPT-5.4 的推出正值几个主要参与者正在争夺人工智能模型领导地位的市场。

Anthropic 已成为该家族最可信的竞争对手之一 克洛德，以其长文档分析功能和面向安全的方法而闻名。

谷歌正在为自己开发 双子座，集成到 Google Workspace 生态系统中。这种方法的优点在于可以直接访问生产力工具（Gmail、文档或表格）和团队的研究基础设施。

微软正在采取不同的战略 副驾驶，直接集成到 Office 套件和 GitHub 等开发工具中。人工智能不再表现为自主应用程序，而是表现为所用软件的本机功能。

面对这些竞争对手，ChatGPT保留了几个优势：庞大的用户群、被开发者广泛采用的API以及能够覆盖大量用途的通用模型。但现在的竞争不再是模型的原始性能，而是它们与工作环境的集成。

在真正的进步和技术叙述之间

因此，GPT-5.4 的发布说明了人工智能模型发布中反复出现的模糊性。

所测量的进展，特别是在工具的使用、网络导航和复杂任务的执行方面，看起来是真实的。同时，性能的呈现基于一组基准，其阅读仍然是部分的，无法访问完整的协议。

在这种背景下，GPT-5.4 似乎并不标志着一个巨大的突破，而是在专业用途核心的语言模型的逐步集成方面又迈出了一步。