Niel、Saadé 和 Schmidt 在 Gradium 和实时语音 AI 上押注 6000 万欧元

多年来，语音人工智能行业一直专注于产生可信声音的能力，这些声音可以模仿人类的细微差别，并为语音表演、营销内容或脚本化语音助手提供足够的真实感。第一代的特点是进步迅速，达到了质量的均质性，今天使得这些型号可以在大部分用途中互换。发出优美的声音不再是一种竞争优势。市场正在转向语音能力成为完整的对话界面。

语音人工智能不再局限于生成真实的声音，它现在必须进行对话、对意外情况做出反应并适应人类交流的节奏。正是在这个基础上，Gradium 希望构建自己的产品，而这家初创公司为此依赖于 Kyutai 实验室内开展的工作，特别是围绕 Moshi 模型，该模型打破了经典的“语音到文本，然后文本到语音”链。 Moshi 没有经过中间转录，而是采用了一种架构 语音到语音 直接，旨在减少延迟并实现更自然和无缝的交互。

这种方法允许更自然的交互，并避免传统管道中固有的延迟。它还为语音、聆听和理解同时工作的对话铺平了道路，这对于下一代人工智能代理来说变得至关重要。

Gradium 正是依靠这种结构性限制，通过从一开始就整合多语言来实现其产品的差异化。然而，这家初创公司进入了一个棋盘，不同的高资本参与者都在忙碌。 ElevenLabs 在配音和声音创作方面已经很成熟，已筹集 2.87 亿美元。 Cartesia 和 Deepgram 各自获得了 8600 万美元的资金，将自己定位于音频多模态和高级对话 AI。这些参与者享有巨大的经济优势、大规模数据和显着的商业领先优势。 Gradium 的战略包括通过专注于一个尚未充分解决的领域来规避这种正面竞争，即实时语音和与人工智能代理的精细同步。

然而，这种定位给欧洲生态系统带来了几个问题。首先，面对由海量数据驱动的美国模式，保持多语言优势的能力仍然不确定。但将语音集成到由大型法学硕士驱动的多模态系统中也需要大量的基础设施，而欧洲企业很少有这样的基础设施。最后，存在结构性风险，即欧洲初创公司在不掌握应用层或客户关系的情况下，成为集成到更大外国平台的技术构建块。

Gradium 由 Google DeepMind 和 Meta 前研究员、Kyutai 创始成员 Neil Zeghidour 于 2025 年 9 月创立，汇集了来自巴黎实验室的团队，包括 Laurent Mazaré、Alexandre Défossez 和 Olivier Teboul。该初创公司今天宣布从 FirstMark Capital、Eurazeo、DST Global Partners、Amplify Partners 以及 Xavier Niel、Eric Schmidt 和 Rodolphe Saadé 筹集 6000 万欧元资金。它计划依靠能够支持自然和多语言对话的语音人工智能来解决实时口译、视频游戏、医疗转录、自动调查和语言教育等用途。