OpenAI启动操作员:任务自动化的自主AI代理

OpenAI刚刚引入了操作员,这是一种由一个名为“计算机使用代理”(CUA)的新型号供电的实验数字代理。虽然该概念是开创性的,但通过与人类这样的图形接口进行交互使AI能够在网络上执行任务,但很明显,这项技术还有很长的路要走,然后才能广泛依赖它用于复杂的现实世界任务。

什么是操作员,如何工作?

从本质上讲,操作员是一个可以解释屏幕上的视觉提示(例如按钮,菜单和文本字段)并使用这些提示执行任务的AI。该模型由CUA提供支持,将GPT-4O的视力功能与通过强化学习学到的推理相结合。这使其可以在不依赖OS或Web特定API的情况下浏览数字环境。从理论上讲,这意味着操作员可以在人类输入最少的各个平台上处理任务。

虽然这听起来令人印象深刻,但该模型的现实表现却是不足的。 CUA旨在将任务分解为步骤并在遇到障碍时适应。但是,这个过程仍在早期阶段,沿途经常出现错误和打ic。

结果混合和成功率低

在测试中,CUA在OSWorld上取得了38.1%的成功率,该成功率模拟了完整的计算机使用任务。对于基于Web的任务,数字稍好一些,但仍然没有令人印象深刻:Webarena的58.1%,WebVoyager的87%。尽管这些数字似乎令人鼓舞,但它们与AI系统在日常任务中真正有用所需的可靠性相去甚远。
从本质上讲,尽管CUA可以执行任务,但它通常会挣扎,突出了当前AI模型在执行无人干预的多步骤现实世界动作时的局限性。

安全问题和有限的可用性

操作员的更令人关注的方面之一是它访问Web的一个。允许AI浏览,单击并与各种在线平台进行交互,引入了重大的安全和道德风险。 Openai明确表示,安全是重中之重,但是借助这种技术,很难不担心允许AI代理自由访问数字空间的意外后果。错误或滥用可能会导致严重的问题,从数据隐私漏洞到意外行动。

为了解决这些问题,OpenAI正在缓慢推出操作员,最初为美国提供了这种谨慎的方法,使公司可以收集用户反馈并完善安全功能。但是,即使有限的推出,允许AI代理不受限制访问网络的风险也不能忽略。

前面的道路

尽管操作员是AI景观中迈出的有趣的一步,但很明显,该技术仍然远非完美。尽管如此,它仍会以可靠性,准确性和一致性挣扎。鉴于其性能存在很大的差距,很难在不久的将来如何在关键任务应用中使用该技术。

此外,尽管CUA能够理解和与图形接口互动的能力是一个突破,但拥有需要持续进行微调和监督的AI系统的现实使其不再是数字助手,而在此阶段更不属于研究项目。