为什么机器人技术(最终)成为生成AI的最终应用

在NVIDIA GTC 2025会议上,最受期待的面板之一汇集了Onex,熟练的AI,敏捷机器人技术,波士顿动力学和NVIDIA的领导者,围绕共同的观察:Robotics进入了一个新阶段。得益于基本模型的进步,硬件成本的下降和大规模数据的产生,人工智能使屏幕锚定在物理世界中。

长期以来,由于系统的复杂性,电机数据的稀缺性和机器成本的阻碍,机器人技术最终与语言处理和计算机视觉已知的指数轨迹保持一致。 AI不再满足。她行动,测试,学习。现在,它在一个封闭的循环中进行,在一个重力,惯性和对象施加限制的世界中。正是这种范式变化,该圆桌会议没有绕道而行。

机器人技术,长期落后,进入其聊天时刻

尽管具有AI的共同起源,但Robotics长期以来一直保持着伟大进步的边缘。它的局限性比实践中的理论少:很少的可用数据,强大的物理限制,缓慢的采用和高成本。

“生成的AI建立在简单的燃料上:文本。在机器人技术中,没有Wikipedia手势” -Jim Fan,Nvidia Gear Lab的共同领导者。

但是,这种结构制动在三轮的综合效果下产生了:多模型的成熟度,获得负担得起的计算能力以及创建大量人工数据管道。

从感知到行动:AI变得体现

与软件的On -Board AI区分开的是交互的义务。幻觉的聊天机器人?之后我们更正。幻觉机器人?他打破杯子,错过捕获或变得危险。

机器人不能满足于预测。他必须试验。

“机器人无权犯错误。它在一个重力制裁不确定的世界中。”

正是这一原则以体现AI的新兴趣为基础。与被动学习的LLM不同,机器人学都学习 通过闭环 :感知,行动,现实的回归。这是教导的经验。

新建筑:从光子到运动

在NVIDIA,这种方法诞生了Groot项目,该项目在Jensen Huang的主题演讲中揭示了。这是一个20亿个参数的基础型号,即开源,能够将相机捕获的图像转换为连续的电机信号。

“目标很简单:创建一个能够从像素到动作的AI,而无需中间管道” – 吉姆风扇

这种方法让人回想起允许LLM拆开的方法: 独特的模型,一个通用的任务,大规模培训。该模型从金字塔组织的三个数据源中学习:

  • 真实数据 :从物理机器人的遥控器。
  • 模拟数据 :通过ISAAC SIM引擎生成。
  • 合成数据 :由神经模拟模型生成的视频。

硬件的价格下跌。用例打开。

到目前为止,材料的成本一直怨恨实验。但是机器人组件现在受益于消费电子产品的进度:电池,传感器,相机,计算单元。

“ 10年前,人形机器人的价格为150万美元。今天,我们可以以不到40,000欧元的价格生产它” – 亚伦·桑德斯(Aaron Saunders),波士顿动力学的首席技术官

这种下降使像敏捷机器人或Onex这样的公司可以考虑在仓库,安装连锁店甚至家庭中的连续部署。人形机器人成为潜在的可扩展产品。

交叉 – 埃德姆:通用模型的巨大挑战

主要障碍之一仍然是 对几个机器人体的同一模型的概括。所谓的“跨座位”提出了动态,惯性,校准,感知的复杂问题。

“即使是两个相同的机器人也没有做出相同的反应。机械师也引入了噪音,甚至在同一代机器中” – Onex首席执行官Bernd Bornik

测试了几种策略:

    • 多元化学习 :将模拟中的物理配置乘以导致可变性。
    • 机器人结构的编码 :将形态描述为矢量序列(语法机器人)。
    • 动态上下文化 :将机器人行为的历史记录注入模型,以使其适应。

人类,电机数据的第一个来源

在没有大型机器人手势数据库的情况下,研究人员转向无所不在的来源: 人类

拍摄的每日手势成为推断机动行为的金矿。这不再是复制的问题,而是解释手势的逻辑。

“机器人不需要有五个手指来学习如何打开冰箱。他需要了解我们为什么要寻找手柄” – 迪帕克·帕塔克(Deepak Pathak)

机器人学教的是什么(不是相反)

从chatgpt中,人们想知道LLM可以为机器人技术做什么。但是反向变得更加战略性: 如果在板上AI成为最终的人工智能实验室怎么办?

    • 机器人技术在现实中施加锚定。
    • 她强迫生成自己的数据。
    • 它通过面对身体后果来消除幻觉。

“在世界上起作用的模型比对世界评论的模型更好” – 伯恩德·伯恩克(Bernd Bornik)

延续:规模的变化不仅仅是一场革命

在接下来的两到五年中,通才机器人将不会取代人类。但是他们将达到足够的公用事业阈值,将工作流程整合为重复,危险或痛苦的任务。

挑战将不再知道 如果 机器人可以完成任务,但是 多少 在不重新编程的情况下,它可以完成的任务。

“机器人的采用将比您想象的要快。大脑准备就绪。身体几乎在那里。” – 吉姆迷