Elevenlabs的新AI声音可以像人类的70多种语言一样说话

AI语音技术的播放器Elevenlabs宣布推出了11 V3（Alpha），这是对其文本到语音平台的主要升级。这个最新版本在合成语音中引入了一定的现实主义和表现力，使其非常接近人类的声音表演。该公司声称，新模型不仅可以清晰地解释文本，还可以通过各种情感，音调甚至戏剧性的提示来解释文本。

与较早的机器人语音合成工具的迭代不同，11 V3的设计旨在像训练有素的配音演员一样。它可以适应中间句子的变化，传达复杂的情感转变，例如兴奋或悲伤，甚至包括笑声或叹息等非语言提示。对于从事视频内容，播客，有声读物或交互式应用程序的创建者，新工具提供了以个性和细微差别传递口头文字的能力。最重要的更新之一是其扩展的语言支持。尽管较早的版本仅限于大约30种语言，但现在有11个V3支持70多种语言，其中包括印度，泰米尔语和孟加拉语等几种通用的印度语言。这使得它与印度市场尤其重要，在印度市场上，区域语言内容消耗正在上升。

“我们的目标是建立有史以来最具表现力的文本到语音模型，” Elevenlabs的联合创始人兼首席执行官Mati Staniszewski说。 “通过完全控制交付，节奏和情感，用户现在可以量身定制AI声音以匹配任何脚本。我们特别自豪地将印度语言作为这种全球推出的一部分。”该模型使用户能够将特定的说明插入文本，例如（窃窃私语），（笑）或（sing），以控制非语言和风格元素。它还可以改变口音，在单个录音中效仿多个字符，并以戏剧性或讲故事的目的调整语音动态。

这种新功能为广泛的印度用户打开了大门。 YouTube等平台上的内容创建者可以产生听起来自然和情感吸引的配音。教育工作者和Edtech平台可以使用该工具来创建沉浸式，音频丰富的学习材料。游戏开发人员和应用程序构建者可以生成现实的角色声音或虚拟助手。即使是企业也可以利用AI来构建更智能的语音机器人和更类似人类的客户服务系统。作者和出版商还可以将书籍转换为栩栩如生的有声读物，从而减少了对人类叙述者的依赖，同时保留了原始文本的情感质量。

目前，11 V3最适合预录的内容。但是，该公司计划尽快扩展到实时应用程序，从而有可能为现场虚拟助手，AI呼叫中心代理商和交互式聊天机器人提供动力。公共API也正在开发中，使开发人员可以将技术直接集成到其平台和服务中。十一V3的Alpha版本可在Elevenlabs.io上及早访问。