战略转折点
Openai抬起了两种受洗模型的面纱 O3 和 O4-迷你作为公司有史以来最先进的推理系统。这些模型随着纯对话取向的GPT系列而统一逻辑,视觉和工具控制:Web研究,Python解释,生成和图像分析,文件阅读 – 所有这些直接由AI策划,而无需中等的人类干预。
什么是具体改变的
- 多模式推理
O3和O4 -Mini现在使用图像“思考”。 AI可以在响应之前整合图,缩小细节或在其逻辑链中旋转照片,这是朝着接近人类认知的理解的决定性步骤。
- 代理工具使用
这些模型选择相关工具 – 代码执行,Web导航,视觉生成 – 然后在不到一分钟的时间内提供完整的解决方案。该自主权将CHATGPT转变为真实的执行代理。
- 强化学习成倍增加
Openai宣称,它增加了分配给RL的计算能力,从而使模型“思考更长”。结果:几乎所有基准的净收入,最终用户没有额外的延迟。
记录性能
| 基准 | O1 | O3 | O4-迷你 |
|---|---|---|---|
| 喜欢2025(数学) | 79% | 91.6% | 92.7% |
| ELO代码柜 | 1,891 | 2,706 | 2,719 |
| mmmu(视觉) | 77.6% | 82.9% | 81.6% |
这些分数从官方版本注释中,将O3置于编程,数学和图像分析中的先前最新状态,而O4-迷你演出中的大多数表演以代币除以两个。
可用性和定价模型
Chatgpt Plus,Pro和团队订户已经看到 O3,,,, O4-迷你 和 O4-迷你 – 高 在他们的模型选择器中。企业许可公司和大学下周将开关。在API侧,今天可以访问这两个模型,其“ API响应”的机制旨在保持围绕函数调用的推理痕迹。
加强安全性
Openai同时发布 系统卡 零售一组新的拒绝数据和使用 LLM显示器 负责检测敏感用途(生物治疗,一代恶意软件,尝试越狱的尝试)。出版商声称在内部红色团体阶段达到99%的检测,并确保模型保持在“高”阈值之下 准备框架 用于生物学,网络安全和自我完善。
O3 vs O4 -mini:选择哪一个?
| 标准 | O3 | O4-迷你 |
|---|---|---|
| 原始功率 | ★★★★☆ | ★★★☆☆ |
| 成本/令牌 | 瞳孔 | 虚弱的 |
| 潜伏期 | 平均的 | 低的 |
| 复杂的工具链 | 最佳的 | 好的 |
| 典型的用例 | 研究“深入研究”,大量的视觉分析,复杂的代码生产 | 嵌入式助手,批量请求批次,移动集成 |
一个扩大的生态系统
并行,发布者发布 法典CLA,这是一个能够在本地驾驶新型号的终端的开放式代理,而100万美元的API财务项目运营此工具。
前景
通过将O3的到来与GPT -5 -5的到来分离,Openai表明了它希望在下一个大版本的情况下快速迭代推理。人工智能的直接未来将通过能够采取行动的模型,要么只是交谈。如何大规模管理仪器幻觉的风险以及捕获这种自主权引起的敏感数据的风险。目前,Openai在大规模推理的比赛中恢复了一步。