模型:

dbmdz/bert-base-italian-xxl-uncased

英文

? + ? dbmdz BERT和ELECTRA模型

在这个仓库中,巴伐利亚州立图书馆的MDZ数字图书馆团队(dbmdz)开源了意大利BERT和ELECTRA模型 ?

意大利BERT

意大利BERT模型的源数据包括最近的维基百科转储和 OPUS corpora 集合中的各种文本。最终的训练语料库大小为13GB,包含2,050,057,573个标记。

对于句子拆分,我们使用NLTK(与spacy相比更快)。我们的大小写模型使用512个子词的初始序列长度进行训练,大约2-3M步。

对于XXL意大利模型,我们使用与OPUS相同的训练数据,并通过意大利文部分的 OSCAR corpus .数据扩展。因此,最终的训练语料库大小为81GB,包含13,138,379,147个标记。

注意:不幸的是,在训练XXL模型时使用了错误的词汇量大小。这解释了“真实”词汇量大小为31102与config.json中指定的词汇量大小不匹配之间的差异。然而,该模型可以正常工作,并且所有评估都是在这些情况下进行的。有关更多信息,请参见 this issue

意大利ELECTRA模型在“XXL”语料库上总共训练1M步,批大小为128。我们基本上遵循了 BERTurk 中使用的ELECTRA训练过程。

模型权重

目前只提供与PyTorch- Transformers 兼容的权重。如果您需要访问TensorFlow检查点,请提一个问题!

Model Downloads
dbmdz/bert-base-italian-cased 1238321 • 1239321 • 12310321
dbmdz/bert-base-italian-uncased 12311321 • 12312321 • 12313321
dbmdz/bert-base-italian-xxl-cased 12314321 • 12315321 • 12316321
dbmdz/bert-base-italian-xxl-uncased 12317321 • 12318321 • 12319321
dbmdz/electra-base-italian-xxl-cased-discriminator 12320321 • 12321321 • 12322321
dbmdz/electra-base-italian-xxl-cased-generator 12323321 • 12324321 • 12325321

结果

有关下游任务(如NER或PoS标记)的结果,请参阅 this repository

用法

使用Transformers >= 2.3,可以加载我们的意大利BERT模型,如下所示:

from transformers import AutoModel, AutoTokenizer

model_name = "dbmdz/bert-base-italian-cased"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModel.from_pretrained(model_name)

要加载(推荐的)意大利XXL BERT模型,只需使用以下代码:

from transformers import AutoModel, AutoTokenizer

model_name = "dbmdz/bert-base-italian-xxl-cased"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModel.from_pretrained(model_name)

要加载意大利XXL ELECTRA模型(鉴别器),只需使用以下代码:

from transformers import AutoModel, AutoTokenizer

model_name = "dbmdz/electra-base-italian-xxl-cased-discriminator"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelWithLMHead.from_pretrained(model_name)

Huggingface模型中心

所有模型都可以在 Huggingface model hub 上找到。

联系(错误,反馈,贡献等)

如有关于我们BERT/ELECTRA模型的问题,请提一个issue here ?

致谢

本研究得到了来自谷歌TensorFlow Research Cloud(TFRC)中的云TPU的支持。感谢提供TFRC访问的支持 ❤️

感谢 Hugging Face 团队的慷慨支持,可以从其S3存储中下载大小写模型 ?