模型:
cl-tohoku/bert-base-japanese-whole-word-masking
这是一个在日语文本上预训练的模型,训练过程中使用了IPA字典进行词级别的分词,然后采用WordPiece子词分词。此外,该模型在掩码语言建模(MLM)目标中启用了完整词屏蔽。
预训练的代码可以在此处找到 cl-tohoku/bert-japanese 。
模型架构与原始的BERT基础模型相同,包含12层、768维的隐藏状态和12个注意力头。
该模型是在2019年9月1日的日语维基百科上进行训练的。为了生成训练语料库,使用了 WikiExtractor 来提取维基百科文章的纯文本。用于训练的文本文件总大小为2.6GB,包含约1700万个句子。
文本首先通过 MeCab 的形态分析器进行分词,使用了IPA字典,然后再通过WordPiece算法进行子词切分。词汇表大小为32000。
该模型的训练配置与原始的BERT相同;每个实例512个标记,每个批次256个实例,训练步骤数为100万。
为了训练掩码语言建模(MLM)目标,我们引入了“完整词屏蔽”(Whole Word Masking)的方法,即一次性屏蔽由MeCab进行分词后对应一个单词的所有子词标记。
预训练模型遵循 Creative Commons Attribution-ShareAlike 3.0 的条款进行分发。
在模型训练中,我们使用了 TensorFlow Research Cloud 项目提供的Cloud TPU。