英文

BERT基础日语(IPA词典)

这是一个在日语文本上预训练的模型。

该版本的模型使用基于IPA词典的词级标记化处理输入文本,接着进行WordPiece子词标记化。

预训练的代码可在此处获取。

模型架构

模型架构与原始BERT基础模型相同,包括12个层,每个层有768个隐藏状态维度和12个注意力头。

训练数据

模型在2019年9月1日的日语维基百科上进行训练。为了生成训练语料库,我们使用了工具来从维基百科文章的转储文件中提取纯文本。训练使用的文本文件大小为2.6GB,包含约1700万个句子。

标记化

首先,文本通过使用基于IPA词典的词法分析器进行标记化,然后再通过WordPiece算法进行子词切分。词汇表大小为32000。

训练

模型的训练配置与原始BERT相同:每个实例512个标记,每个批次256个实例,共训练100万个步骤。

许可证

预训练模型根据 Creative Commons Attribution-ShareAlike 3.0 的条款进行分发。

致谢

我们在训练模型时使用了由 TensorFlow Research Cloud 计划提供的Cloud TPU。