模型:

dbmdz/bert-base-german-cased

英文

? + ? dbmdz德语BERT模型

在这个代码库中,巴伐利亚州立图书馆的MDZ数字图书馆团队(dbmdz)开源了另一个德语BERT模型?

德语BERT

统计数据

除了最近发布的 German BERT 模型外,我们还提供了另一个德语模型。

该模型的源数据包括最新的维基百科转储、欧盟图书馆语料库、开放字幕、CommonCrawl、ParaCrawl和News Crawl。这导致数据集的大小为16GB,包含2,350,234,427个标记。

我们使用 spacy 进行句子划分。我们的预处理步骤(用于词汇表生成的句子分词模型)与训练 SciBERT 使用的步骤相同。该模型的初始序列长度为512个子词,并进行了150万步的训练。

此发布包括大小写敏感和大小写不敏感的模型。

模型权重

目前只提供与PyTorch- Transformers 兼容的权重。如果您需要访问TensorFlow检查点,请提出问题!

Model Downloads
bert-base-german-dbmdz-cased 1236321 • 1237321 • 1238321
bert-base-german-dbmdz-uncased 1239321 • 12310321 • 12311321

使用方法

使用Transformers >= 2.3可以加载我们的德语BERT模型,例如:

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-german-cased")
model = AutoModel.from_pretrained("dbmdz/bert-base-german-cased")

结果

有关NER或PoS标记等下游任务的结果,请参考 this repository

Huggingface模型中心

所有模型都可在 Huggingface model hub 上获得。

联系方式(错误、反馈、贡献等)

如果对我们的BERT模型有任何问题,请提一个问题 here ?

致谢

研究得到了Google TensorFlow Research Cloud(TFRC)的Cloud TPUs支持。感谢提供对TFRC的访问权❤️

感谢 Hugging Face 团队的慷慨支持,我们可以从他们的S3存储下载大小写敏感和大小写不敏感的模型?