人工智能开始构建我们的数字孪生

用户要求 ChatGPT 计划去伦敦的旅行。助理已经了解他的旅行习惯、他正在从事的项目、他喜欢接收的文档格式以及他的讨论中经常出现的某些限制。

到目前为止,这种连续性更像是科幻小说,而不是数字助理。早期的语言模型能够产生复杂的反应,但从根本上来说仍然是记忆删除的。每一次新的对话都涉及重建一个上下文;一旦新的会议开幕,前一天提到的偏好、项目或限制就可能消失。

随着内存管理系统的发展,OpenAI 不再仅仅寻求记录信息。该公司现在正试图将项目、习惯、偏好和决策联系起来,以对每个用户建立更一致的了解。

在看似简单的功能改进的背后,或许隐藏着人工智能的下一场大战:用户模型之战。

内存成为战略资产

自ChatGPT出现以来,各大AI实验室之间的竞争主要是模型实力的较量。神经网络大小、训练数据量、推理能力或执行速度是主要的差异化因素。

随着模型性能趋同,准确理解每个用户的能力成为越来越重要的竞争优势。一个能够通过数月甚至数年的交互将请求置于情境中的助手可以比具有理论上更高效模型的系统产生更相关的响应。

OpenAI 的新内存架构现在试图区分什么是一次性事件,什么是持久特征。可以完成一个专业的项目。偏好可能会改变。习惯可能会消失。可能会出现新的约束。

这种可刷新性可能比存储器本身更重要,因为它逐渐将助手转变为能够保持用户连贯表示而不是简单信息积累的系统。

数字孪生出厂

数字孪生的概念并非起源于对话式人工智能。多年来,制造商一直在使用发动机、工厂、供应链或能源网络的数字表示来模拟他们的行为。这些模型可以在现实世界中实施之前预测故障、优化操作或测试不同的场景。

目标从来不是完美地再现现实,而是构建足够忠实的表示来理解系统的功能并预测其演变。

人工智能助手逐渐将这种逻辑应用到个人身上。工业数字孪生对实物资产进行建模,而个人数字孪生则力求代表偏好、目标、习惯和约束。原材料不再由工业传感器组成,而是由对话、文档、日历、电子邮件、搜索或数字交互组成。

人工智能不再仅仅模拟对话

到目前为止,会话助理一直被设计为查询处理系统。他们的作用是理解问题然后生成答案。

随着持久记忆的到来,助手不再只了解用户提出的问题。它开始了解该用户的工作方式。

哪些话题经常出现?他的要求追求什么目标?什么标准影响其决策?其活动受到哪些限制?

每次交互都逐渐丰富了这种表征。

经常分析初创公司的投资者可能会看到一个能够整合他通常的评估标准的助手的出现。经理可以立即找到几个月来实施的战略思维的历史记录。顾问可以依赖一个已经了解其活动部门、报告格式以及客户反复出现的问题的系统。

价值不再仅仅在于给出的答案,还在于提问者事先的理解。

为什么人工智能代理需要这种记忆

这种演变与自主代理的出现直接相关。行业主要参与者的目标不再只是回答问题,而是代表用户执行完整的任务。

组织旅行、准备会议、过滤信息、管理日历或执行某些管理程序都需要对用户环境有透彻的了解。

无法理解用户的偏好、习惯或约束的代理其行动能力将仍然受到限制。相反,详细描述其环境的智能体将能够以更高级别的自主权做出更相关的决策。

从内存到用户模型

要构建真正有用的表示,对话不太可能足够,记忆只是第一步。

大型科技公司已经拥有大量信息来源。电子邮件揭示了职业关系。日历概述了工作优先事项和习惯。这些文件描述了当前的项目。搜索历史反映了兴趣。金融应用为经济行为提供信息。连接的对象有时会记录睡眠、身体活动或运动。

单独来看,这些流中的每一个都有有限的价值,但聚合在同一个系统中,它们使得构建更丰富的用户表示成为可能。

微软拥有通过 Microsoft 365 访问电子邮件、会议、文档和协作工具的特权。谷歌通过 Gmail、日历、云端硬盘、Android 和搜索控制着个人数字环境的重要部分。苹果依赖其硬件和软件生态系统。 OpenAI正在通过新的数据源和新工具的集成逐步丰富ChatGPT。

不同方法的背后隐藏着相同的目标,即为用户构建最完整的数字表示。

谁将拥有我们的数字替身?

这一发展提出的问题远远超出了个人数据的保护范围,因为问题不再只是原始数据,而是从中衍生的模型。

谁控制着这个代表?可以从一名助理转移到另一名助理吗?如何纠正错误的解释?我们如何审计构建这个数字肖像的机制?谁来决定什么构成持久特征或一次性行为?

随着助理获得自主权,这些问题可能很快就会成为核心问题。

这种观点让人想起斯坦尼斯瓦夫·莱姆 (Stanisław Lem) 在 1964 年出版的《技术大全》(Summa Technologiae) 中的反思。这位波兰作家已经想象过能够从大量信息积累中构建世界和个人的人工表征的系统的出现。他的问题与其说是关于机器的智能,不如说是关于它们产生足够丰富的模型来重现某些人类行为的能力。

早在主要语言模型出现六十多年前,莱姆就预见到了一个今天变得具体的问题:从什么时候起,数字表示不再是简单的信息文件,而是成为个人的操作模型?