模型:
dbmdz/german-gpt2
在这个仓库中,我们发布了一个(又一个)GPT-2模型,该模型是根据德语的各种文本进行训练的。
该模型旨在作为在其他文本上进行微调的起点,绝对不像英语GPT-3模型那样好或“危险”。我们不打算对此模型进行广泛的公关活动或分阶段发布?
注意:该模型最初是在匿名别名下发布的(anonymous-german-nlp/german-gpt2),所以现在我们对其进行“去匿名”。
更多关于GPT-2的详细信息可以在 Hugging Face 的文档中找到。
2021年8月16日:公开发布改进后的德语GPT-2模型。
2020年11月15日:首次发布。请使用标签v1.0进行标记 this older version 。
我们使用的语料库与用于训练DBMDZ BERT模型的语料库基本相同,可以在 this repository 找到。
感谢Hugging Face团队提供了令人惊喜的库 Tokenizers ,可以创建字节级BPE。
使用之前提到的令人惊喜的Tokenizers库,我们基于训练语料库创建了一个50K字节级BPE词汇表。
在创建词汇表之后,我们可以在一个v3-8 TPU上使用完整的训练语料库对德语GPT-2进行20个时期的训练。所有超参数都可以在Transformers官方JAX/FLAX文档 here 中找到。
可以以以下方式使用模型:
from transformers import AutoTokenizer, AutoModelWithLMHead tokenizer = AutoTokenizer.from_pretrained("dbmdz/german-gpt2") model = AutoModelWithLMHead.from_pretrained("dbmdz/german-gpt2")
然而,文本生成更有趣一些,所以下面是一个示例,演示如何使用伟大的Transformers Pipelines生成文本:
from transformers import pipeline pipe = pipeline('text-generation', model="dbmdz/german-gpt2", tokenizer="dbmdz/german-gpt2") text = pipe("Der Sinn des Lebens ist es", max_length=100)[0]["generated_text"] print(text)
这可能会输出这个美丽的文本:
Der Sinn des Lebens ist es, im Geist zu verweilen, aber nicht in der Welt zu sein, sondern ganz im Geist zu leben. Die Menschen beginnen, sich nicht nach der Natur und nach der Welt zu richten, sondern nach der Seele,'
所有模型都在MIT许可下发布。
所有模型都可以在 Huggingface model hub 上找到。
有关我们的BERT模型的问题,请随时提问 here ?
通过Google的TensorFlow Research Cloud(TFRC)提供的Cloud TPUs支持的研究。感谢提供访问TFRC的支持 ❤️
非常感谢 Hugging Face 团队的慷慨支持,可以从他们的S3存储中下载大小写模型 ?