在这个存储库中,巴伐利亚州立图书馆的MDZ数字图书馆团队(dbmdz)开源了意大利的BERT和ELECTRA模型 ?
意大利BERT模型的源数据包括最新的维基百科转储和 OPUS corpora 收集的各种文本。最终的训练语料库大小为13GB,包含2,050,057,573个标记。
对于句子分割,我们使用NLTK进行处理(与spacy相比更快)。我们的大小写和非大小写模型的初始序列长度为512个子词,训练步骤为约2-3M次。
对于意大利XXL模型,我们使用了与OPUS相同的训练数据,并结合了 OSCAR corpus 中的意大利部分的数据。因此,最终的训练语料库大小为81GB,包含13,138,379,147个标记。
注:不幸的是,在训练XXL模型时,使用了错误的词汇量大小。这解释了“真实”词汇量大小为31102,与config.json中指定的词汇量大小不一致的情况。然而,模型是有效的,所有评估都是在这些条件下进行的。更多信息请参阅 this issue 。
意大利ELECTRA模型在“XXL”语料库上进行了总共1M步的训练,使用批量大小为128。我们基本上遵循了 ELECTRA 训练过程,就像 BERTurk 中使用的那样。
目前只提供 PyTorch- Transformers 兼容的权重。如果您需要 TensorFlow 的检查点,请提出问题!
Model | Downloads |
---|---|
dbmdz/bert-base-italian-cased | 1238321 • 1239321 • 12310321 |
dbmdz/bert-base-italian-uncased | 12311321 • 12312321 • 12313321 |
dbmdz/bert-base-italian-xxl-cased | 12314321 • 12315321 • 12316321 |
dbmdz/bert-base-italian-xxl-uncased | 12317321 • 12318321 • 12319321 |
dbmdz/electra-base-italian-xxl-cased-discriminator | 12320321 • 12321321 • 12322321 |
dbmdz/electra-base-italian-xxl-cased-generator | 12323321 • 12324321 • 12325321 |
有关下游任务(如NER或PoS标记)的结果,请参阅 this repository 。
使用 Transformers >= 2.3 可以加载我们的意大利BERT模型,像这样:
from transformers import AutoModel, AutoTokenizer model_name = "dbmdz/bert-base-italian-cased" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModel.from_pretrained(model_name)
要加载(推荐的)意大利XXL BERT模型,只需使用:
from transformers import AutoModel, AutoTokenizer model_name = "dbmdz/bert-base-italian-xxl-cased" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModel.from_pretrained(model_name)
要加载意大利XXL ELECTRA模型(判别器),只需使用:
from transformers import AutoModel, AutoTokenizer model_name = "dbmdz/electra-base-italian-xxl-cased-discriminator" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelWithLMHead.from_pretrained(model_name)
所有模型都可以在 Huggingface model hub 上获取。
如果您对我们的BERT/ELECTRA模型有任何问题,请提出问题 here ?
该研究得到了来自谷歌 TensorFlow 研究云 (TFRC) 提供的云TPU的支持。感谢他们提供对TFRC的访问 ❤️
感谢 Hugging Face 团队的慷慨支持,我们可以从其S3存储中下载包括大小写模型在内的所有模型 ?