OpenAI启动操作员：任务自动化的自主AI代理

OpenAI刚刚引入了操作员，这是一种由一个名为“计算机使用代理”（CUA）的新型号供电的实验数字代理。虽然该概念是开创性的，但通过与人类这样的图形接口进行交互使AI能够在网络上执行任务，但很明显，这项技术还有很长的路要走，然后才能广泛依赖它用于复杂的现实世界任务。

什么是操作员，如何工作？

从本质上讲，操作员是一个可以解释屏幕上的视觉提示（例如按钮，菜单和文本字段）并使用这些提示执行任务的AI。该模型由CUA提供支持，将GPT-4O的视力功能与通过强化学习学到的推理相结合。这使其可以在不依赖OS或Web特定API的情况下浏览数字环境。从理论上讲，这意味着操作员可以在人类输入最少的各个平台上处理任务。

虽然这听起来令人印象深刻，但该模型的现实表现却是不足的。 CUA旨在将任务分解为步骤并在遇到障碍时适应。但是，这个过程仍在早期阶段，沿途经常出现错误和打ic。

结果混合和成功率低

在测试中，CUA在OSWorld上取得了38.1％的成功率，该成功率模拟了完整的计算机使用任务。对于基于Web的任务，数字稍好一些，但仍然没有令人印象深刻：Webarena的58.1％，WebVoyager的87％。尽管这些数字似乎令人鼓舞，但它们与AI系统在日常任务中真正有用所需的可靠性相去甚远。
从本质上讲，尽管CUA可以执行任务，但它通常会挣扎，突出了当前AI模型在执行无人干预的多步骤现实世界动作时的局限性。

安全问题和有限的可用性

操作员的更令人关注的方面之一是它访问Web的一个。允许AI浏览，单击并与各种在线平台进行交互，引入了重大的安全和道德风险。 Openai明确表示，安全是重中之重，但是借助这种技术，很难不担心允许AI代理自由访问数字空间的意外后果。错误或滥用可能会导致严重的问题，从数据隐私漏洞到意外行动。

为了解决这些问题，OpenAI正在缓慢推出操作员，最初为美国提供了这种谨慎的方法，使公司可以收集用户反馈并完善安全功能。但是，即使有限的推出，允许AI代理不受限制访问网络的风险也不能忽略。

前面的道路

尽管操作员是AI景观中迈出的有趣的一步，但很明显，该技术仍然远非完美。尽管如此，它仍会以可靠性，准确性和一致性挣扎。鉴于其性能存在很大的差距，很难在不久的将来如何在关键任务应用中使用该技术。

此外，尽管CUA能够理解和与图形接口互动的能力是一个突破，但拥有需要持续进行微调和监督的AI系统的现实使其不再是数字助手，而在此阶段更不属于研究项目。