模型:
cl-tohoku/bert-base-japanese
这是一个在日语文本上预训练的模型。
该版本的模型使用基于IPA词典的词级标记化处理输入文本,接着进行WordPiece子词标记化。
预训练的代码可在此处获取。
模型架构与原始BERT基础模型相同,包括12个层,每个层有768个隐藏状态维度和12个注意力头。
模型在2019年9月1日的日语维基百科上进行训练。为了生成训练语料库,我们使用了工具来从维基百科文章的转储文件中提取纯文本。训练使用的文本文件大小为2.6GB,包含约1700万个句子。
首先,文本通过使用基于IPA词典的词法分析器进行标记化,然后再通过WordPiece算法进行子词切分。词汇表大小为32000。
模型的训练配置与原始BERT相同:每个实例512个标记,每个批次256个实例,共训练100万个步骤。
预训练模型根据 Creative Commons Attribution-ShareAlike 3.0 的条款进行分发。
我们在训练模型时使用了由 TensorFlow Research Cloud 计划提供的Cloud TPU。