🤗 + 📚 dbmdz Turkish BERT 模型

在这个仓库中，巴伐利亚国家图书馆的 MDZ 数字图书馆团队（dbmdz）开源了一个针对土耳其语的非大小写 BERT 模型 🎉

🇹🇷 BERTurk

BERTurk 是一个由社区驱动的非大小写的土耳其 BERT 模型。

部分用于预训练和评估的数据集是由伟大的土耳其 NLP 社区贡献的，模型名称也是由他们决定的：BERTurk。

统计数据

当前版本的模型在过滤和以句子为单位分割的土耳其维基百科最近的倾倒数据、各种 OPUS corpora 数据集以及 Kemal Oflazer 提供的特殊语料库上进行了训练。

最终的训练语料库大小为35GB，包含440,497,666,2个标记。

由于谷歌的 TensorFlow 研究云（TFRC），我们能够在 TPU v3-8 上进行200万步的无大小写模型训练。

对于这个模型，我们使用了128k的词汇表大小。

模型权重

目前只提供了符合 PyTorch- Transformers 的兼容权重。如果您需要 TensorFlow 的检查点，请提出问题！

Model	Downloads
dbmdz/bert-base-turkish-128k-uncased	1235321 • 1236321 • 1237321

使用方法

使用 Transformers > = 2.3，可以加载我们的 BERTurk 无大小写模型，如下所示：

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-128k-uncased")
model = AutoModel.from_pretrained("dbmdz/bert-base-turkish-128k-uncased")

结果

有关词性标注或命名实体识别任务的结果，请参阅 this repository 。

Huggingface 模型中心

所有模型都可以在 Huggingface model hub 上找到。

联系方式（漏洞、反馈、贡献等）

如有关于我们的 BERT 模型的问题，请提一个问题 here 🤗

致谢

感谢 Kemal Oflazer 提供给我们用于土耳其语的额外大型语料库。非常感谢 Reyyan Yeniterzi 提供土耳其命名实体识别数据集进行评估。

此研究得到了谷歌 TensorFlow 研究云（TFRC）提供的 Cloud TPU 的支持。感谢提供 TFRC 的访问权 ❤️

感谢 Hugging Face 团队的慷慨支持，我们可以从他们的 S3 存储下载大小写模型和非大小写模型 🤗

作者:

Bayerische Staatsbibliothek

数据集大小:

2.43 GB