Conversational RuBERT(俄语,大小写,12层,768隐藏单元,12个注意力头,180M参数)是在OpenSubtitles[1]、 Dirty 、 Pikabu 和Taiga语料库[2]的社交媒体部分上进行训练的。我们根据这些数据为Conversational RuBERT模型组建了一个新的词汇表,并用RuBERT初始化了模型。
2021年11月8日:上传了带有MLM和NSP头的模型
[1]: P. Lison and J. Tiedemann, 2016, OpenSubtitles2016:从电影和电视字幕中提取大规模平行语料库。第十届自然语言资源评估国际会议论文集(LREC 2016)
[2]: Shavrina T., Shapovalova O.(2017)关于机器学习语料库构建方法的思考:“TAIGA”句法树语料库和解析器。在“CORPORA2017”国际会议论文集,圣彼得堡,2017年。