模型:

asapp/sew-tiny-100k

英文

SEW-tiny

SEW by ASAPP Research

基于16kHz采样的语音音频进行预训练的基础模型。当使用该模型时,请确保您的语音输入也是以16Khz进行采样的。请注意,该模型应该在下游任务中进行微调,例如自动语音识别、说话人识别、意图分类、情感识别等等。

论文: Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition

作者:Felix Wu,Kwangyoun Kim,Jing Pan,Kyu Han,Kilian Q. Weinberger,Yoav Artzi

摘要:本文主要研究预训练模型在自动语音识别(ASR)中的性能和效率的权衡。我们重点关注wav2vec 2.0,并形式化了多个影响模型性能和效率的架构设计。基于我们的观察,我们提出了SEW(Squeezed and Efficient Wav2vec)模型架构,在性能和效率两个维度上取得了显著的改进。例如,在LibriSpeech的100h-960h半监督设置下,SEW相比wav2vec 2.0实现了1.9倍的推理加速,并且相对于word error rate的减少达到了13.5%。在相似的推理时间内,SEW在不同模型大小上将word error rate降低了25-50%。

原始模型可以在 https://github.com/asappresearch/sew#model-checkpoints 中找到。

用法

更多关于如何对模型进行微调的信息,请参见 this blog 。请注意,Wav2Vec2ForCTC类必须替换为SEWForCTC。