Facebook 母公司 Meta 宣布对其人工智能工作进行重大升级,发布全语言 ASR,这是一种新的开源自动语音识别 (ASR) 系统。该公司声称,该系统可以理解和转录 1,600 多种口语,其中包括约 500 种从未获得基于人工智能的转录工具的专门支持的低资源语言。
ASR 系统由 Meta 的基础人工智能研究 (FAIR) 团队开发,旨在大幅扩大全球数字语音技术的使用范围。 Meta 的人工智能负责人 Alexandr Wang 在 X(前身为 Twitter)上宣布了这一里程碑,他表示:“Meta 全语言 ASR 将语音识别扩展到 1,600 多种语言,其中包括 500 种以前从未支持的语言,这是迈向真正通用人工智能的重要一步。我们正在开源一整套模型和数据集。”
Meta强大的语音识别AI模型向所有人开放
全语言 ASR 系统解决了人工智能行业中一个长期存在的问题,即大多数语音识别平台都重点关注资源丰富、广泛使用的语言,从而导致其他语言社区缺乏可靠的工具。通过支持 1,600 多种语言,包括那些数字文档有限的语言,Meta 希望缩小这一数字语言差距。
该系统的核心是全语言 wav2vec 2.0 模型,这是一个可扩展至 70 亿个参数的大型多语言语音模型。该模型与 Mozilla 基金会的 Common Voice 和 Lanfrica 合作,在公共数据集上结合来自全球社区的语音录音进行了训练。当地说话者的参与确保了数据集能够代表现实世界的口音、方言和语音模式。
Meta 的全语言 ASR 系统效果如何?
Meta 承认准确性会因所选语言而异。内部数据显示,超过95%的高资源和中等资源语言的字符错误率达到了10%以下。然而,只有 36% 的低资源语言达到了相同的基准。这凸显了为文档不足的语言构建准确的人工智能所面临的持续挑战。
然而,全语言 ASR 已作为开源工具发布,鼓励 Meta 吸引研究人员、开发人员和组织使用该平台,使他们能够将资源用于可访问性、翻译和通信等关键任务。