模型:
speechbrain/mtl-mimic-voicebank
该存储库提供了在SpeechBrain中进行增强和稳健ASR训练(EN)所需的所有工具。为了获得更好的体验,我们鼓励您了解更多关于 SpeechBrain 的信息。模型性能是:
Release | Test PESQ | Test COVL | Valid WER | Test WER |
---|---|---|---|---|
22-06-21 | 3.05 | 3.74 | 2.89 | 2.80 |
适用于SpeechBrain v0.5.12
mimic loss训练系统由三个步骤组成:
增强模型和ASR模型可以一起使用或独立使用。
首先,请使用以下命令安装SpeechBrain:
pip install speechbrain
请注意,我们鼓励您阅读我们的教程并了解更多关于 SpeechBrain 的信息。
要使用使用mimic loss训练的模型进行增强,请使用以下简单代码:
import torchaudio from speechbrain.pretrained import WaveformEnhancement enhance_model = WaveformEnhancement.from_hparams( source="speechbrain/mtl-mimic-voicebank", savedir="pretrained_models/mtl-mimic-voicebank", ) enhanced = enhance_model.enhance_file("speechbrain/mtl-mimic-voicebank/example.wav") # Saving enhanced signal on disk torchaudio.save('enhanced.wav', enhanced.unsqueeze(0).cpu(), 16000)
该系统使用16kHz(单通道)的采样的录音进行训练。如果在调用enhance_file时需要,该代码将自动对音频进行归一化处理(即重新采样+选择单声道)。如果您使用enhance_batch,确保输入张量与预期的采样率相符。
要在GPU上执行推理,调用from_hparams方法时添加run_opts={"device":"cuda"}。
该模型是使用SpeechBrain(150e1890)训练的。要从头开始训练,请按照以下步骤进行:
git clone https://github.com/speechbrain/speechbrain/
cd speechbrain pip install -r requirements.txt pip install -e .
cd recipes/Voicebank/MTL/ASR_enhance python train.py hparams/enhance_mimic.yaml --data_folder=your_data_folder
您可以在 here 找到我们的训练结果(模型、日志等)。
SpeechBrain团队对在其他数据集上使用此模型时所达到的性能不提供任何保证。
如果您发现模仿损失有用,请引用:
@inproceedings{bagchi2018spectral, title={Spectral Feature Mapping with Mimic Loss for Robust Speech Recognition}, author={Bagchi, Deblin and Plantinga, Peter and Stiff, Adam and Fosler-Lussier, Eric}, booktitle={IEEE Conference on Audio, Speech, and Signal Processing (ICASSP)}, year={2018} }
如果您在研究或商业中使用SpeechBrain,请引用它。
@misc{speechbrain, title={{SpeechBrain}: A General-Purpose Speech Toolkit}, author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio}, year={2021}, eprint={2106.04624}, archivePrefix={arXiv}, primaryClass={eess.AS}, note={arXiv:2106.04624} }