英文

BETO: 西班牙语BERT

BETO是一个在 big Spanish corpus 数据上训练的 BERT model 。BETO的大小与BERT-Base类似,并采用全词遮蔽技术进行训练。下面是uncased和cased版本的Tensorflow和Pytorch检查点,以及与 Multilingual BERT 以及其他(非基于BERT的)模型进行比较的一些西班牙基准测试结果。

下载

BETO uncased 1234321 1235321 vocab , config
BETO cased 1236321 1237321 vocab , config

所有模型都使用大约31k个BPE子词的词汇表,使用SentencePiece构建,并进行了2M步的训练。

基准测试

以下表格显示了BETO在每个任务的西班牙版本中的一些结果。我们将BETO(大小写敏感和大小写不敏感)与我们在文献中找到的最佳多语言BERT结果进行了比较(截至2019年10月)。表格还显示了同一任务的一些替代方法(不一定是基于BERT的方法)。所有方法的参考资料可以在这里找到。

Task BETO-cased BETO-uncased Best Multilingual BERT Other results
1238321 98.97 98.44 97.10 [2] 98.91 [6], 96.71 [3]
1239321 12310321 82.67 87.38 [2] 87.18 [3]
12311321 12312321 12313321 95.70 [2] 88.75 [4]
12314321 89.05 89.55 90.70 [8]
12315321 82.01 80.15 78.50 [2] 80.80 [5], 77.80 [1], 73.15 [4]

使用示例

有关如何使用BETO的更多详细信息,请访问 ?Huggingface Transformers library ,从 Quickstart section 开始。可以使用Transformers库简单地访问BETO模型,如 'dccuchile/bert-base-spanish-wwm-cased' 'dccuchile/bert-base-spanish-wwm-uncased' 。有关如何在该页面中下载和使用模型的示例,请参见 this colab notebook 。(我们将很快添加一个更详细的新手逐步教程,以便更多人了解 ?)

致谢

我们感谢 Adereso 对BETO-uncased模型的训练提供的支持,以及 Millennium Institute for Foundational Research on Data 对BETO-cased模型的训练提供的支持。还要感谢Google对 TensorFlow Research Cloud 计划的帮助。

引用

Spanish Pre-Trained BERT Model and Evaluation Data

如需在出版物中引用此资源,请使用以下引用方式:

@inproceedings{CaneteCFP2020,
  title={Spanish Pre-Trained BERT Model and Evaluation Data},
  author={Cañete, José and Chaperon, Gabriel and Fuentes, Rodrigo and Ho, Jou-Hui and Kang, Hojin and Pérez, Jorge},
  booktitle={PML4DC at ICLR 2020},
  year={2020}
}

许可声明

CC BY 4.0许可证最好地描述了我们的工作意图。但是,我们不确定用于训练BETO的所有数据集是否具有与CC BY 4.0兼容的许可证(特别是商业用途)。请自行决定并验证原始文本资源的许可证是否符合您的需求。

引用