为什么机器人技术（最终）成为生成AI的最终应用

在NVIDIA GTC 2025会议上，最受期待的面板之一汇集了Onex，熟练的AI，敏捷机器人技术，波士顿动力学和NVIDIA的领导者，围绕共同的观察：Robotics进入了一个新阶段。得益于基本模型的进步，硬件成本的下降和大规模数据的产生，人工智能使屏幕锚定在物理世界中。

长期以来，由于系统的复杂性，电机数据的稀缺性和机器成本的阻碍，机器人技术最终与语言处理和计算机视觉已知的指数轨迹保持一致。 AI不再满足。她行动，测试，学习。现在，它在一个封闭的循环中进行，在一个重力，惯性和对象施加限制的世界中。正是这种范式变化，该圆桌会议没有绕道而行。

机器人技术，长期落后，进入其聊天时刻

尽管具有AI的共同起源，但Robotics长期以来一直保持着伟大进步的边缘。它的局限性比实践中的理论少：很少的可用数据，强大的物理限制，缓慢的采用和高成本。

“生成的AI建立在简单的燃料上：文本。在机器人技术中，没有Wikipedia手势” -Jim Fan，Nvidia Gear Lab的共同领导者。

但是，这种结构制动在三轮的综合效果下产生了：多模型的成熟度，获得负担得起的计算能力以及创建大量人工数据管道。

与软件的On -Board AI区分开的是交互的义务。幻觉的聊天机器人？之后我们更正。幻觉机器人？他打破杯子，错过捕获或变得危险。

机器人不能满足于预测。他必须试验。

“机器人无权犯错误。它在一个重力制裁不确定的世界中。”

正是这一原则以体现AI的新兴趣为基础。与被动学习的LLM不同，机器人学都学习 通过闭环 ：感知，行动，现实的回归。这是教导的经验。

在NVIDIA，这种方法诞生了Groot项目，该项目在Jensen Huang的主题演讲中揭示了。这是一个20亿个参数的基础型号，即开源，能够将相机捕获的图像转换为连续的电机信号。

“目标很简单：创建一个能够从像素到动作的AI，而无需中间管道” – 吉姆风扇

这种方法让人回想起允许LLM拆开的方法： 独特的模型，一个通用的任务，大规模培训。该模型从金字塔组织的三个数据源中学习：

到目前为止，材料的成本一直怨恨实验。但是机器人组件现在受益于消费电子产品的进度：电池，传感器，相机，计算单元。

“ 10年前，人形机器人的价格为150万美元。今天，我们可以以不到40,000欧元的价格生产它” – 亚伦·桑德斯（Aaron Saunders），波士顿动力学的首席技术官

这种下降使像敏捷机器人或Onex这样的公司可以考虑在仓库，安装连锁店甚至家庭中的连续部署。人形机器人成为潜在的可扩展产品。

主要障碍之一仍然是 对几个机器人体的同一模型的概括。所谓的“跨座位”提出了动态，惯性，校准，感知的复杂问题。

“即使是两个相同的机器人也没有做出相同的反应。机械师也引入了噪音，甚至在同一代机器中” – Onex首席执行官Bernd Bornik

测试了几种策略：

- 多元化学习 ：将模拟中的物理配置乘以导致可变性。
- 机器人结构的编码 ：将形态描述为矢量序列（语法机器人）。
- 动态上下文化 ：将机器人行为的历史记录注入模型，以使其适应。

在没有大型机器人手势数据库的情况下，研究人员转向无所不在的来源：人类。

拍摄的每日手势成为推断机动行为的金矿。这不再是复制的问题，而是解释手势的逻辑。

“机器人不需要有五个手指来学习如何打开冰箱。他需要了解我们为什么要寻找手柄” – 迪帕克·帕塔克（Deepak Pathak）

从chatgpt中，人们想知道LLM可以为机器人技术做什么。但是反向变得更加战略性： 如果在板上AI成为最终的人工智能实验室怎么办？

“在世界上起作用的模型比对世界评论的模型更好” – 伯恩德·伯恩克（Bernd Bornik）

在接下来的两到五年中，通才机器人将不会取代人类。但是他们将达到足够的公用事业阈值，将工作流程整合为重复，危险或痛苦的任务。

挑战将不再知道如果机器人可以完成任务，但是多少在不重新编程的情况下，它可以完成的任务。

“机器人的采用将比您想象的要快。大脑准备就绪。身体几乎在那里。” – 吉姆迷