BERT基础日语（IPA词典）

这是一个在日语文本上预训练的模型。

该版本的模型使用基于IPA词典的词级标记化处理输入文本，接着进行WordPiece子词标记化。

预训练的代码可在此处获取。

模型架构

模型架构与原始BERT基础模型相同，包括12个层，每个层有768个隐藏状态维度和12个注意力头。

模型在2019年9月1日的日语维基百科上进行训练。为了生成训练语料库，我们使用了工具来从维基百科文章的转储文件中提取纯文本。训练使用的文本文件大小为2.6GB，包含约1700万个句子。

首先，文本通过使用基于IPA词典的词法分析器进行标记化，然后再通过WordPiece算法进行子词切分。词汇表大小为32000。

模型的训练配置与原始BERT相同：每个实例512个标记，每个批次256个实例，共训练100万个步骤。

预训练模型根据 Creative Commons Attribution-ShareAlike 3.0 的条款进行分发。

我们在训练模型时使用了由 TensorFlow Research Cloud 计划提供的Cloud TPU。

作者:

Tohoku University

数据集大小:

1.33 GB