模型:
dbmdz/bert-base-german-uncased
在这个仓库中,巴伐利亚州图书馆的MDZ数字图书馆团队(dbmdz)开源了另一个德语BERT模型 ?
除了最近发布的 German BERT 模型之外,我们还提供了另一个德语模型。
该模型的源数据包括最新的维基百科转储、欧盟图书馆语料库、Open Subtitles、CommonCrawl、ParaCrawl和新闻抓取。这导致数据集的大小为16GB,共2,350,234,427个标记。
我们使用 spacy 进行句子拆分。我们的预处理步骤(用于词汇表生成的句子片段模型)遵循用于训练 SciBERT 的步骤。该模型的初始序列长度为512个子词,并进行了150万步的训练。
此版本包含大小写敏感和大小写不敏感的模型。
目前只提供与PyTorch兼容的权重。如果您需要访问TensorFlow的检查点,请提出问题!
Model | Downloads |
---|---|
bert-base-german-dbmdz-cased | 1236321 • 1237321 • 1238321 |
bert-base-german-dbmdz-uncased | 1239321 • 12310321 • 12311321 |
使用 Transformers >= 2.3 可以加载我们的德语BERT模型,如下所示:
from transformers import AutoModel, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-german-cased") model = AutoModel.from_pretrained("dbmdz/bert-base-german-cased")
有关NER或词性标注等下游任务的结果,请参阅 this repository 。
所有模型都在 Huggingface model hub 上可用。
如有关于我们的BERT模型的问题,请开启一个问题 here ?
本研究得到来自Google TensorFlow研究云(TFRC)的Cloud TPUs的支持。感谢提供对TFRC的访问 ❤️
感谢 Hugging Face 团队的慷慨支持,使得可以从他们的S3存储中下载大小写敏感和大小写不敏感的模型 ?