Meta推出超强语音AI:能听懂全球 4000 多种语言
2023年05月24日 由 Neo 发表
78249
0
Meta已经开发出了一种AI语言模型,这一模型不再像ChatGPT那样单一。Meta的大规模多语言语音(MMS)项目可以识别超过4,000种口语,且能在超过1,100种语音中产生文字转换为语音(speech-to-text)。和这个公司宣布的其他公共AI项目一样,Meta现在开放源代码MMS以帮助保持语言多样性,鼓励研究人员在这个基础上进行研究。"今天,我们公开分享我们的模型和代码,以便研究界的其他人可以在我们的工作基础上进行构建。通过这项工作,我们希望对保护世界上的语言多样性做出一些小小的贡献。"
语音识别和文本转语音模型通常需要对数千小时的音频进行训练,并附带转录标签。(标签对机器学习至关重要,它允许算法正确分类和“理解”数据。)但对于工业化国家未广泛使用的语言,其中许多语言在未来几十年甚至有消失的可能。“这数据根本不存在”正如 Meta 所说。
Meta使用了一种非常规的方法来收集音频数据:利用翻译宗教文本的录音。该公司表示:“我们转向宗教文本,例如圣经,这些文本已被翻译成多种不同的语言,并且其译文已被广泛用于基于文本的语言翻译研究。” “这些翻译具有公开可用的不同语言人们朗读这些文本的音频记录。” 通过整合未标记的圣经和类似文本的录音,Meta的研究人员将模型的可用语言增加到了超过4000种。
如果你和我一样,这种方法一开始可能会让你感到惊讶,因为它听起来像是一种严重偏向基督教世界观的AI模型设计。但Meta表示情况并非如此。“虽然音频录音的内容是宗教,但我们的分析表明,这不会使模型偏向于生成更多宗教性的语言,”Meta写道。“我们认为这是因为我们使用了一种连接主义临时分类(CTC)方法,这种方法与大型语言模型(LLM)或序列到序列模型相比更加受限。”此外,尽管大多数宗教录音是由男性讲者朗读的,但这也没有引入男性偏见-在男性和女性声音中表现同样出色。
在训练一个对齐模型使数据更易于使用之后,Meta使用了wav2vec 2.0,这是该公司的“自我监督语音表示学习”模型,它可以在未标记的数据上进行训练。结合非常规数据源和自我监督的语音模型产生了令人印象深刻的结果。“我们的结果表明,与现有模型相比,大规模多语音模型表现良好,并涵盖了10倍的语言。”具体来说,Meta将MMS与OpenAI的Whisper进行了比较,并且它超出了预期。“我们发现,在大规模多语音数据上训练的模型可虽然有一半的单词错误率,但其涵盖的语言是原来的 11 倍。”
Meta警告称,它的新模型并不完美。“例如,语音转文本模型可能误读某些单词或短语,具有一定的风险,”公司写道。“根据输出,这可能会导致冒犯和/或不准确的语言。我们仍然相信,整个AI界的协作对于负责任地开发 AI 技术至关重要。”
现在Meta已经将MMS发布为开放源代码进行研究,它希望可以利用技术使世界语言逐渐缩小至最多受科技支持的100种或更少的趋势。它看到了一种世界,其中辅助技术、TTS甚至VR / AR技术使每个人都可以使用自己的母语说话和学习。meta表示,“我们设想一个世界,在这个世界中,鼓励人们保持他们自己语言的活力,因为他们可以使用自己的语言获取信息和使用技术。”