模型:
dccuchile/bert-base-spanish-wwm-cased
BETO是一个在 big Spanish corpus 数据上训练的 BERT model 。BETO的大小与BERT-Base类似,并采用全词遮蔽技术进行训练。下面是uncased和cased版本的Tensorflow和Pytorch检查点,以及与 Multilingual BERT 以及其他(非基于BERT的)模型进行比较的一些西班牙基准测试结果。
BETO uncased | 1234321 | 1235321 | vocab , config |
BETO cased | 1236321 | 1237321 | vocab , config |
所有模型都使用大约31k个BPE子词的词汇表,使用SentencePiece构建,并进行了2M步的训练。
以下表格显示了BETO在每个任务的西班牙版本中的一些结果。我们将BETO(大小写敏感和大小写不敏感)与我们在文献中找到的最佳多语言BERT结果进行了比较(截至2019年10月)。表格还显示了同一任务的一些替代方法(不一定是基于BERT的方法)。所有方法的参考资料可以在这里找到。
Task | BETO-cased | BETO-uncased | Best Multilingual BERT | Other results |
---|---|---|---|---|
1238321 | 98.97 | 98.44 | 97.10 [2] | 98.91 [6], 96.71 [3] |
1239321 | 12310321 | 82.67 | 87.38 [2] | 87.18 [3] |
12311321 | 12312321 | 12313321 | 95.70 [2] | 88.75 [4] |
12314321 | 89.05 | 89.55 | 90.70 [8] | |
12315321 | 82.01 | 80.15 | 78.50 [2] | 80.80 [5], 77.80 [1], 73.15 [4] |
有关如何使用BETO的更多详细信息,请访问 ?Huggingface Transformers library ,从 Quickstart section 开始。可以使用Transformers库简单地访问BETO模型,如 'dccuchile/bert-base-spanish-wwm-cased' 和 'dccuchile/bert-base-spanish-wwm-uncased' 。有关如何在该页面中下载和使用模型的示例,请参见 this colab notebook 。(我们将很快添加一个更详细的新手逐步教程,以便更多人了解 ?)
我们感谢 Adereso 对BETO-uncased模型的训练提供的支持,以及 Millennium Institute for Foundational Research on Data 对BETO-cased模型的训练提供的支持。还要感谢Google对 TensorFlow Research Cloud 计划的帮助。
Spanish Pre-Trained BERT Model and Evaluation Data
如需在出版物中引用此资源,请使用以下引用方式:
@inproceedings{CaneteCFP2020, title={Spanish Pre-Trained BERT Model and Evaluation Data}, author={Cañete, José and Chaperon, Gabriel and Fuentes, Rodrigo and Ho, Jou-Hui and Kang, Hojin and Pérez, Jorge}, booktitle={PML4DC at ICLR 2020}, year={2020} }
CC BY 4.0许可证最好地描述了我们的工作意图。但是,我们不确定用于训练BETO的所有数据集是否具有与CC BY 4.0兼容的许可证(特别是商业用途)。请自行决定并验证原始文本资源的许可证是否符合您的需求。