模型:

facebook/wav2vec2-conformer-rel-pos-large

英文

Wav2Vec2-Conformer-Large with Relative Position Embeddings

Wav2Vec2 Conformer带有相对位置嵌入,使用音频预训练模型,使用了16kHz采样的Librispeech音频训练了960小时。使用该模型时,请确保输入的音频也是以16kHz采样的。

注意:该模型没有标记器,因为它是仅使用音频进行预训练的。为了使用该模型进行语音识别,需要创建一个标记器,并在带有标记的文本数据上对模型进行微调。更详细的模型微调说明请查看 this blog

论文: fairseq S2T: Fast Speech-to-Text Modeling with fairseq

作者:Changhan Wang、Yun Tang、Xutai Ma、Anne Wu、Sravya Popuri、Dmytro Okhonko、Juan Pino

Wav2Vec2-Conformer的结果可以在 official paper 的表3和表4中找到。

原始模型可以在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 下找到。

用法

有关如何微调该模型的更多信息,请参阅 this notebook