在这个代码库中,巴伐利亚州立图书馆的MDZ Digital Library团队(dbmdz)开源了意大利BERT和ELECTRA模型?
意大利BERT模型的源数据包括最近的维基百科转储和来自 OPUS corpora 收集的各种文本。最终的训练语料库大小为13GB,含有2,050,057,573个标记。
我们使用NLTK进行句子拆分(与spacy相比更快)。我们的大小写敏感和大小写不敏感模型的初始序列长度为512个子单词,进行了约2-3M次训练步骤。
对于意大利的XXL模型,我们使用了与OPUS相同的训练数据,并将其扩展到了 OSCAR corpus 的意大利部分的数据。因此,最终的训练语料库大小为81GB,含有13,138,379,147个标记。
注意:不幸的是,在训练XXL模型时使用了一个错误的词汇表大小。这就解释了"实际"词汇表大小为31102与config.json中指定的词汇表大小不匹配的原因。然而,该模型是可用的,并且所有的评估都是在这些情况下进行的。其他信息请参见 this issue 。
意大利的ELECTRA模型使用128的批量大小在"XXL"语料库上进行了1M步的训练。我们基本上遵循了用于 BERTurk 的ELECTRA训练过程。
目前只提供了与PyTorch- Transformers 兼容的权重。如果您需要访问TensorFlow的检查点,请提出问题!
Model | Downloads |
---|---|
dbmdz/bert-base-italian-cased | 1238321 • 1239321 • 12310321 |
dbmdz/bert-base-italian-uncased | 12311321 • 12312321 • 12313321 |
dbmdz/bert-base-italian-xxl-cased | 12314321 • 12315321 • 12316321 |
dbmdz/bert-base-italian-xxl-uncased | 12317321 • 12318321 • 12319321 |
dbmdz/electra-base-italian-xxl-cased-discriminator | 12320321 • 12321321 • 12322321 |
dbmdz/electra-base-italian-xxl-cased-generator | 12323321 • 12324321 • 12325321 |
关于下游任务(如NER或PoS标记)的结果,请参考 this repository 。
使用Transformers >= 2.3,可以加载我们的意大利BERT模型如下:
from transformers import AutoModel, AutoTokenizer model_name = "dbmdz/bert-base-italian-cased" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModel.from_pretrained(model_name)
要加载(推荐的)意大利XXL BERT模型,只需如下所示:
from transformers import AutoModel, AutoTokenizer model_name = "dbmdz/bert-base-italian-xxl-cased" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModel.from_pretrained(model_name)
要加载意大利XXL ELECTRA模型(判别器),只需如下所示:
from transformers import AutoModel, AutoTokenizer model_name = "dbmdz/electra-base-italian-xxl-cased-discriminator" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelWithLMHead.from_pretrained(model_name)
所有模型都可在 Huggingface model hub 上获取。
如有关于我们BERT/ELECTRA模型的问题,请提一个issue here ?
研究得到了Google TensorFlow Research Cloud (TFRC)的Cloud TPUs支持。感谢提供TFRC的访问权限❤️
感谢 Hugging Face 团队的慷慨支持,可以从他们的S3存储中下载大小写敏感和大小写不敏感模型?