模型:

dbmdz/bert-base-german-uncased

英文

? + ? dbmdz德语BERT模型

在这个仓库中,巴伐利亚州图书馆的MDZ数字图书馆团队(dbmdz)开源了另一个德语BERT模型 ?

德语BERT

统计数据

除了最近发布的 German BERT 模型之外,我们还提供了另一个德语模型。

该模型的源数据包括最新的维基百科转储、欧盟图书馆语料库、Open Subtitles、CommonCrawl、ParaCrawl和新闻抓取。这导致数据集的大小为16GB,共2,350,234,427个标记。

我们使用 spacy 进行句子拆分。我们的预处理步骤(用于词汇表生成的句子片段模型)遵循用于训练 SciBERT 的步骤。该模型的初始序列长度为512个子词,并进行了150万步的训练。

此版本包含大小写敏感和大小写不敏感的模型。

模型权重

目前只提供与PyTorch兼容的权重。如果您需要访问TensorFlow的检查点,请提出问题!

Model Downloads
bert-base-german-dbmdz-cased 1236321 • 1237321 • 1238321
bert-base-german-dbmdz-uncased 1239321 • 12310321 • 12311321

使用方法

使用 Transformers >= 2.3 可以加载我们的德语BERT模型,如下所示:

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-german-cased")
model = AutoModel.from_pretrained("dbmdz/bert-base-german-cased")

结果

有关NER或词性标注等下游任务的结果,请参阅 this repository

Huggingface模型中心

所有模型都在 Huggingface model hub 上可用。

联系方式(漏洞、反馈、贡献等)

如有关于我们的BERT模型的问题,请开启一个问题 here ?

致谢

本研究得到来自Google TensorFlow研究云(TFRC)的Cloud TPUs的支持。感谢提供对TFRC的访问 ❤️

感谢 Hugging Face 团队的慷慨支持,使得可以从他们的S3存储中下载大小写敏感和大小写不敏感的模型 ?