关于人工智能模型表现的辩论不再限于对语言基准分数的简单比较。现在区分另一个有效的AI的不仅是模型的质量,而是其以结构化和可测量的动作序列进行注册的能力。换句话说, 他的行动能力,不仅是预测。
这个变化专门的概念仍然很少公开: 脚手架。从软件体系结构借来的这个术语的背后,隐藏了代理AI的基石。它指定了允许LLM(大语言模型)执行真实任务的所有结构和组件:组织其操作,访问工具(浏览器,终端,API),持续记忆,迭代其错误。没有 脚手架,模型生成文本。随之而来的 能够产生混凝土结果的自主剂。
两天前由Openai出版的基准纸台上的基准纸,以敏锐的态度说明了这种摇摆。目的:评估AI代理商的能力 从科学出版物到机器学习的回复。这不再是回答问题的问题,而是阅读论文,了解经验,编写相应的代码,执行它,验证结果…然后提交完整的复制。这项任务通常会动员几天的人类工作。
结果? 克劳德3.5十四行诗凭借精心策划的代理商,取得了21%的成功。 GPT-4,但是被认为更强大,在没有4%的情况下没有 脚手架 适应。因此,不是模型的原始力量,而是 围绕它的代理体系结构的质量。
这种观察对公司具有具体的影响。如今,投资AI不再意味着选择“最佳模型”。我们必须设计一个 完整的系统,其中模型被整合到执行,控制和连续学习的逻辑中。这意味着在动作流,模块化,计划和持久界面方面进行思考。代理变成了 自主工作单位,其绩效与其本地智能一样取决于其监督。
因此,纸板标志着休息。它没有测试理论能力。他衡量运营能力: 将复杂的设定值转换为可复制结果的能力。这种方法是更广泛的运动的一部分:从实验领域中出现的AI的运动 – 起草,自动化,支持,分析,生产。
对于公司而言,这涉及审查其阅读网格。它不再足以根据其语言基准比较模型。现在有必要评估整合,协调和制作一个能力 爆发和迭代剂。价值的创造不再在预测中,而是由软件体系结构指导的执行。
在2025年,人工智能的真正衡量标准不再是“知道”模型,而是它可以做的 – 独立重做。这种能力基于给出的无形架构: 脚手架。