英文

AlephBERT

Hebrew Language Model

高级语言模型,适用于希伯来语。基于谷歌的BERT架构。 (Devlin et al. 2018)

如何使用
from transformers import BertModel, BertTokenizerFast

alephbert_tokenizer = BertTokenizerFast.from_pretrained('onlplab/alephbert-base')
alephbert = BertModel.from_pretrained('onlplab/alephbert-base')

# if not finetuning - disable dropout
alephbert.eval()

训练数据

  • OSCAR (Ortiz, 2019) 希伯来语部分(10 GB文本,2000万个句子)。
  • 希伯来语倾倒 Wikipedia (650 MB文本,300万个句子)。
  • 收集自Twitter样本流的希伯来语推文(7 GB文本,7000万个句子)。
  • 训练过程

    使用标准的Huggingface训练过程,在DGX机器(8个V100 GPU)上进行训练。

    由于我们训练数据的大部分是基于推文的,我们决定首先优化使用掩蔽语言模型损失来进行训练。

    为了优化训练时间,我们根据最大标记数将数据分为4个部分:

  • 标记数 < 32(7000万个句子)
  • 32 <= 标记数 < 64(1200万个句子)
  • 64 <= 标记数 < 128(1000万个句子)
  • 128 <= 标记数 < 512(150万个句子)
  • 每个部分首先进行5个时期的训练,初始学习率设为1e-4。然后每个部分再进行5个时期的训练,初始学习率设为1e-5,总共进行10个时期。

    总训练时间为8天。