模型:
dbmdz/bert-base-turkish-128k-cased
在这个仓库中,巴伐利亚州立图书馆的 MDZ Digital Library 团队(dbmdz)开源了一款适用于土耳其语的标记化 BERT 模型 ?
BERTurk 是一个由社区参与开发的适用于土耳其语的标记化 BERT 模型。
部分用于预训练和评估的数据集是来自令人惊叹的土耳其 NLP 社区的贡献,同时也是对模型命名为 BERTurk 的决定的结果。
当前版本的模型是根据经过筛选和分句的土耳其语维基百科最新转储、各种额外的数据集和来自特定机构的语料库进行训练的。
最终训练语料库的大小为 35GB,共有 44,04,976,662 个标记。
多亏了 Google 的 TensorFlow 研究云(TFRC),我们能够在一个 TPU v3-8 上进行 2M 步的训练。
对于这个模型,我们使用了 128k 的词汇表大小。
目前只提供了兼容 PyTorch 的权重。如果您需要 TensorFlow 的检查点,请提一个 issue!
Model | Downloads |
---|---|
dbmdz/bert-base-turkish-128k-cased | 1235321 • 1236321 • 1237321 |
使用 Transformers >= 2.3,我们可以加载我们的 BERTurk 标记化模型,如下所示:
from transformers import AutoModel, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-128k-cased") model = AutoModel.from_pretrained("dbmdz/bert-base-turkish-128k-cased")
关于词性标注或命名实体识别任务的结果,请参考 this repository 。
所有模型都可以在 Huggingface model hub 上获取。
如果您对我们的 BERT 模型有任何问题,只需提一个 issue ?
感谢 Kemal Oflazer 提供额外的大型土耳其语语料库。非常感谢 Reyyan Yeniterzi 提供土耳其语命名实体识别数据集用于评估。
本研究得到了来自 Google 的 TensorFlow 研究云(TFRC)的云 TPU 的支持。感谢提供 TFRC 的访问权 ❤️
感谢 Hugging Face 团队的慷慨支持,我们可以从他们的 S3 存储中下载标记化和非标记化模型 ?