AI:您了解联合嵌入预测架构(JEPA)和世界模型吗?

两年来,语言模型主导了技术新闻,改变了用途,颠覆了行业,并确立了新软件时代刚刚来临的想法。然而,在这一壮观的浪潮背后,全球研究领域正在形成另一场运动,这场运动可能更具决定性。

它基于这样的理念:人工智能要真正进步,必须超越文本,学会理解世界。这正是其作用 联合嵌入预测架构 (JEPA)世界模特,这两种方法得到了 Meta 未来的前人工智能科学经理 Yann LeCun 的特别辩护。

因此,现在可以清楚地确定当前模型的局限性。法学硕士,无论多么优秀,也只能学会预测下一个单词,既没有世界的结构记忆,也没有物体的内部表征,也没有对基本物理动力学的理解。当他描述一个运动时,他不会调动任何机械直觉,当他回答一个复杂的问题时,他不依赖任何因果模型。它只是操纵语言相关性,而不是现实法则。这种架构注定它仍然是一个反应性系统,无疑在生成文本方面非常出色,但无法以稳健的方式进行规划、预测或推理。

JEPA 在该领域带来了概念上的突破。他们的目标不再是重建图像、句子或数据片段,而是在潜在空间中预测, 未来状态的表征 的一个场景。因此,机器不再寻求精确地模仿其输入,而是预测会发生什么。这种明显微妙的差异深刻地改变了学习的本质,因为建筑不是再现视觉或语言细节,而是学会识别构成情境的稳定元素、规律性和隐含法则。

世界模特就他们而言,通过构建一个真正的现实“内部模拟器”来扩展这种逻辑。人工智能不再充当反射系统,而是充当对世界有连贯表示的代理。因此,她可以想象几种场景,比较其后果并选择最相关的行动顺序。这种预测能力是人类行为的核心,如今它构成了生成式人工智能最明显的限制之一,世界模型正是旨在填补这一限制。

这种转变不是理论上的,而是对经验观察的回应,Yann LeCun 经常回忆道:一个四岁的孩子,在没有文本或解释的情况下,比在整个互联网上接受培训的法学硕士积累了更多关于世界的信息。最重要的是,他通过观察自己行为的影响来学习。正是这种感知-行动-纠正循环构成了人类认知发展。另一方面,当前的 LLM 模型中没有它,但它却是 JEPA 和预测架构的中心。

这个问题远远超出了学术框架,工业应用是具体的。在机器人技术中,只有能够预测其运动后果的系统才能可靠地操纵物体。在物流中,对中断的预期成为绩效的一个条件。在能源领域,建模材料和化学反应需要对微观动力学有详细的了解。在企业软件中,多步骤规划将成为所有复杂任务的先决条件。法学硕士今天通过语言近似所做的一切都必须使用预测和模拟机制来重新创建。

因此,JEPA 和世界模型不应被视为深度学习的边际优化,而应被视为范式转变,其目标是构建能够推理、理解物理世界机制并在开放环境中行动的系统。它们体现了从能说话的人工智能到能说话的人工智能的转变 思考,至少在该术语的操作意义上是这样。这是 Yann LeCun 以及 Jeff Bezos 和他的新创业公司 Prometheus 所下的赌注。