Meta 的 Alexandr Wang 推出新的开源 AI 模型，可理解 1,600 多种语言

Facebook 母公司 Meta 宣布对其人工智能工作进行重大升级，发布全语言 ASR，这是一种新的开源自动语音识别 (ASR) 系统。该公司声称，该系统可以理解和转录 1,600 多种口语，其中包括约 500 种从未获得基于人工智能的转录工具的专门支持的低资源语言。

ASR 系统由 Meta 的基础人工智能研究 (FAIR) 团队开发，旨在大幅扩大全球数字语音技术的使用范围。 Meta 的人工智能负责人 Alexandr Wang 在 X（前身为 Twitter）上宣布了这一里程碑，他表示：“Meta 全语言 ASR 将语音识别扩展到 1,600 多种语言，其中包括 500 种以前从未支持的语言，这是迈向真正通用人工智能的重要一步。我们正在开源一整套模型和数据集。”

Meta强大的语音识别AI模型向所有人开放

全语言 ASR 系统解决了人工智能行业中一个长期存在的问题，即大多数语音识别平台都重点关注资源丰富、广泛使用的语言，从而导致其他语言社区缺乏可靠的工具。通过支持 1,600 多种语言，包括那些数字文档有限的语言，Meta 希望缩小这一数字语言差距。

元全语言 ASR 将语音识别扩展到 1,600 多种语言，其中包括 500 种以前从未支持的语言，这是迈向真正通用人工智能的重要一步。

我们正在开源全套模型和数据集：https://t.co/AIaYrqSF0h https://t.co/qC79jrF7BY

— 亚历山大·王 (@alexandr_wang) 2025 年 11 月 10 日

该系统的核心是全语言 wav2vec 2.0 模型，这是一个可扩展至 70 亿个参数的大型多语言语音模型。该模型与 Mozilla 基金会的 Common Voice 和 Lanfrica 合作，在公共数据集上结合来自全球社区的语音录音进行了训练。当地说话者的参与确保了数据集能够代表现实世界的口音、方言和语音模式。

Meta 的全语言 ASR 系统效果如何？

Meta 承认准确性会因所选语言而异。内部数据显示，超过95%的高资源和中等资源语言的字符错误率达到了10%以下。然而，只有 36% 的低资源语言达到了相同的基准。这凸显了为文档不足的语言构建准确的人工智能所面临的持续挑战。

然而，全语言 ASR 已作为开源工具发布，鼓励 Meta 吸引研究人员、开发人员和组织使用该平台，使他们能够将资源用于可访问性、翻译和通信等关键任务。