英文

Wav2Vec2-Base

Facebook's Wav2Vec2

基于16kHz采样语音音频的基础预训练模型。在使用该模型时,请确保您的语音输入也是以16kHz采样。

注意:该模型没有分词器,因为它仅仅基于音频进行了预训练。为了使用该模型进行语音识别,需要创建一个分词器,并在带有标记文本数据的情况下对模型进行微调。详细了解如何微调模型,请参阅 this blog

Paper

作者:Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli

摘要:我们首次展示了仅从语音音频中学习强大的表示,然后在转录的语音上进行微调,可以超越最佳的半监督方法,同时概念上更简单。Wav2vec 2.0在潜在空间中对语音输入进行屏蔽,并在联合学习的潜在表示的量化上解决了对比任务。在使用Librispeech的所有标记数据的实验中,在干净/其他测试集上实现了1.8/3.3的词错误率(WER)。当减少标记数据量到一小时时,Wav2Vec 2.0在使用100倍更少的标记数据的情况下,超过了100小时子集上的先前最先进模型。仅使用十分钟的标记数据,并在53k小时的无标记数据上进行预训练,仍然可以实现4.8/8.2的WER。这证明了在有限标记数据的情况下进行语音识别的可行性。原始模型可以在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 中找到。

使用方法

有关如何微调该模型的更多信息,请参阅 this notebook