英文

日语 Hubert 基础模型

这是一个由 rinna Co., Ltd. 训练的日语 HuBERT(Hidden Unit Bidirectional Encoder Representations from Transformers)模型。

该模型是使用大规模的日语音频数据集 ReazonSpeech 语料库进行训练的。

如何使用该模型

import torch
from transformers import HubertModel

model = HubertModel.from_pretrained("rinna/japanese-hubert-base")
model.eval()

wav_input_16khz = torch.randn(1, 10000)
outputs = model(wav_input_16khz)
print(f"Input:   {wav_input_16khz.size()}")  # [1, 10000]
print(f"Output:  {outputs.last_hidden_state.size()}")  # [1, 31, 768]

模型摘要

模型架构与 original HuBERT base model 相同,包含12个Transformer层和8个注意力头。模型是使用来自 official repository 的代码进行训练的,详细的训练配置可以在同一代码库和 original paper 中找到。

还可以提供一个fairseq的检查点文件 here

训练

该模型在大约19,000小时的 ReazonSpeech 语料库上进行了训练。

许可证

The Apache 2.0 license

引用

@article{hubert2021hsu,
  author={Hsu, Wei-Ning and Bolte, Benjamin and Tsai, Yao-Hung Hubert and Lakhotia, Kushal and Salakhutdinov, Ruslan and Mohamed, Abdelrahman},
  journal={IEEE/ACM Transactions on Audio, Speech, and Language Processing},
  title={HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units},
  year={2021},
  volume={29},
  number={},
  pages={3451-3460},
  doi={10.1109/TASLP.2021.3122291}
}