模型:
cl-tohoku/bert-large-japanese
这是一个在日本语文本上进行预训练的 BERT 模型。
该版本的模型使用Unidic 2.1.2词典(在 unidic-lite 包中可用)进行基于词级标记化的输入文本处理,然后使用WordPiece子词标记化。此外,该模型在掩蔽语言建模(MLM)目标中启用了整字掩蔽功能。
预训练的代码可在 cl-tohoku/bert-japanese 处获得。
模型架构与原始的BERT大型模型相同;24层,1024个隐藏状态的维度和16个注意力头。
模型是在日本语版维基百科上进行训练的。培训语料库是从2020年8月31日的维基百科Cirrussearch转储文件生成的。
生成的语料库文件总计4.0GB,包含约30M个句子。我们使用了 MeCab 形态分析器和 mecab-ipadic-NEologd 词典将文本分割为句子。
文本首先经过Unidic 2.1.2词典的MeCab分词,然后通过WordPiece算法分割为子词。词汇表大小为32768。
我们使用 fugashi 和 unidic-lite 包进行标记化。
模型的训练配置与原始的BERT相同;每个实例512个标记,每个批次256个实例,总共训练100万个步骤。对于MLM(掩蔽语言建模)目标的训练,我们引入了整字掩蔽,即一次掩蔽由MeCab标记化的一个单词对应的所有子词标记。
对于每个模型的训练,我们使用了 TensorFlow Research Cloud program 提供的v3-8 Cloud TPU实例。训练大约花费5天时间完成。
预训练模型根据 Creative Commons Attribution-ShareAlike 3.0 的条款分发。
本模型是由 TensorFlow Research Cloud 计划提供的Cloud TPU进行训练。