模型:
dbmdz/bert-base-german-cased
在这个代码库中,巴伐利亚州立图书馆的MDZ数字图书馆团队(dbmdz)开源了另一个德语BERT模型?
除了最近发布的 German BERT 模型外,我们还提供了另一个德语模型。
该模型的源数据包括最新的维基百科转储、欧盟图书馆语料库、开放字幕、CommonCrawl、ParaCrawl和News Crawl。这导致数据集的大小为16GB,包含2,350,234,427个标记。
我们使用 spacy 进行句子划分。我们的预处理步骤(用于词汇表生成的句子分词模型)与训练 SciBERT 使用的步骤相同。该模型的初始序列长度为512个子词,并进行了150万步的训练。
此发布包括大小写敏感和大小写不敏感的模型。
目前只提供与PyTorch- Transformers 兼容的权重。如果您需要访问TensorFlow检查点,请提出问题!
Model | Downloads |
---|---|
bert-base-german-dbmdz-cased | 1236321 • 1237321 • 1238321 |
bert-base-german-dbmdz-uncased | 1239321 • 12310321 • 12311321 |
使用Transformers >= 2.3可以加载我们的德语BERT模型,例如:
from transformers import AutoModel, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-german-cased") model = AutoModel.from_pretrained("dbmdz/bert-base-german-cased")
有关NER或PoS标记等下游任务的结果,请参考 this repository 。
所有模型都可在 Huggingface model hub 上获得。
如果对我们的BERT模型有任何问题,请提一个问题 here ?
研究得到了Google TensorFlow Research Cloud(TFRC)的Cloud TPUs支持。感谢提供对TFRC的访问权❤️
感谢 Hugging Face 团队的慷慨支持,我们可以从他们的S3存储下载大小写敏感和大小写不敏感的模型?