模型:

dbmdz/bert-base-italian-xxl-cased

英文

? + ? dbmdz BERT 和 ELECTRA 模型

在这个仓库中,巴伐利亚州立图书馆的 MDZ Digital Library 团队 (dbmdz) 开源了意大利语的 BERT 和 ELECTRA 模型 ?

意大利语 BERT

意大利语 BERT 模型的源数据包括最近的维基百科存档和 OPUS corpora 集合中的各种文本。最终的训练语料库的大小为 13GB,包含 2,050,057,573 个标记。

为了进行句子拆分,我们使用 NLTK(与 spacy 相比速度更快)。我们的大小写模型使用初始序列长度为 512 个子词进行训练,大约经过 2-3M 步。

对于意大利语的 XXL 模型,我们使用了与 OPUS 相同的训练数据,并且将其与 OSCAR corpus 的意大利语数据进行扩展。因此,最终的训练语料库的大小为 81GB,包含 13,138,379,147 个标记。

注意:不幸的是,在训练 XXL 模型时使用了错误的词汇表大小。这解释了“实际”词汇表大小为 31102,与 config.json 中指定的词汇表大小不符。但是,该模型是正常工作的,并且所有的评估都在这些情况下完成。有关更多信息,请参见 this issue

意大利语 ELECTRA 模型在 "XXL" 语料库上进行了 1M 步的训练,批量大小为 128。我们基本上遵循了 ELECTRA 的训练过程,就像在 BERTurk 中使用的那样。

模型权重

目前只有 PyTorch- Transformers 兼容的权重可用。如果您需要访问 TensorFlow 的检查点,请提一个 issue!

Model Downloads
dbmdz/bert-base-italian-cased 1238321 • 1239321 • 12310321
dbmdz/bert-base-italian-uncased 12311321 • 12312321 • 12313321
dbmdz/bert-base-italian-xxl-cased 12314321 • 12315321 • 12316321
dbmdz/bert-base-italian-xxl-uncased 12317321 • 12318321 • 12319321
dbmdz/electra-base-italian-xxl-cased-discriminator 12320321 • 12321321 • 12322321
dbmdz/electra-base-italian-xxl-cased-generator 12323321 • 12324321 • 12325321

结果

有关下游任务(如命名实体识别或词性标注)的结果,请参阅 this repository

用法

使用 Transformers > = 2.3 可以加载我们的意大利语 BERT 模型,如下:

from transformers import AutoModel, AutoTokenizer

model_name = "dbmdz/bert-base-italian-cased"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModel.from_pretrained(model_name)

要加载(推荐的)意大利语 XXL BERT 模型,只需使用:

from transformers import AutoModel, AutoTokenizer

model_name = "dbmdz/bert-base-italian-xxl-cased"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModel.from_pretrained(model_name)

要加载意大利语 XXL ELECTRA 模型(判别器),只需使用:

from transformers import AutoModel, AutoTokenizer

model_name = "dbmdz/electra-base-italian-xxl-cased-discriminator"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelWithLMHead.from_pretrained(model_name)

Huggingface 模型中心

所有模型都可以在 Huggingface model hub 上获得。

联系方式 (错误、反馈、贡献等)

有关我们的 BERT/ELECTRA 模型的问题,请提 issue here ?。

致谢

该研究得到了来自 Google 的 TensorFlow Research Cloud (TFRC) 的云 TPU 的支持。感谢提供 TFRC 的访问 ❤️。

感谢 Hugging Face 团队的慷慨支持,可以从其 S3 存储中下载大小写模型 ?。