模型:
onlplab/alephbert-base
高级语言模型,适用于希伯来语。基于谷歌的BERT架构。 (Devlin et al. 2018) 。
如何使用from transformers import BertModel, BertTokenizerFast alephbert_tokenizer = BertTokenizerFast.from_pretrained('onlplab/alephbert-base') alephbert = BertModel.from_pretrained('onlplab/alephbert-base') # if not finetuning - disable dropout alephbert.eval()
使用标准的Huggingface训练过程,在DGX机器(8个V100 GPU)上进行训练。
由于我们训练数据的大部分是基于推文的,我们决定首先优化使用掩蔽语言模型损失来进行训练。
为了优化训练时间,我们根据最大标记数将数据分为4个部分:
每个部分首先进行5个时期的训练,初始学习率设为1e-4。然后每个部分再进行5个时期的训练,初始学习率设为1e-5,总共进行10个时期。
总训练时间为8天。