1.0 版本(2019年11月25日)
我们通常建议使用cased模型。
介绍芬兰BERT的论文: arXiv:1912.07076
这是Google的 BERT 深度迁移学习模型的一个版本,专为芬兰语而设计。该模型可以微调以实现各种芬兰自然语言处理任务的最新效果。
FinBERT采用了一个自定义的50,000个词片段词汇表,比之前从Google发布的 multilingual BERT 模型的覆盖范围更好:
Vocabulary | Example |
---|---|
FinBERT | Suomessa vaihtuu kesän aikana sekä pääministeri että valtiovarain ##ministeri . |
Multilingual BERT | Suomessa vai ##htuu kes ##än aikana sekä p ##ää ##minister ##i että valt ##io ##vara ##in ##minister ##i . |
FinBERT已经在从新闻、在线讨论和互联网爬虫中收集的30亿个标记(24B个字符)的芬兰文本上进行了100万步的预训练。相比之下,多语言BERT是在维基百科文本上进行训练的,其中芬兰维基百科的文本量约为用于训练FinBERT的文本量的3%。
这些特点使得FinBERT在微调芬兰自然语言处理任务时不仅优于多语言BERT,而且优于先前提出的所有模型。
在Yle新闻(左)和Ylilauta在线讨论(右)语料库上,FinBERT在文档分类上的性能超过了多语言BERT(M-BERT)在一系列训练集大小上的性能。(包含参考的基准分类性能,其中包括 FastText )
[ code ] [ Yle data ] [ Ylilauta data ]
评估结果使用FiNER语料库( Ruokolainen et al 2019 )
Model | Accuracy |
---|---|
FinBERT | 92.40% |
Multilingual BERT | 90.29% |
1239321 (rule-based) | 86.82% |
(来自 Ruokolainen et al. 2019 的FiNER标记结果)
在三个使用 Universal Dependencies 词性标签进行注释的芬兰文语料库上进行评估:Turku Dependency Treebank(TDT),FinnTreeBank(FTB)和Parallel UD treebank(PUD)
Model | TDT | FTB | PUD |
---|---|---|---|
FinBERT | 98.23% | 98.39% | 98.08% |
Multilingual BERT | 96.97% | 95.87% | 97.58% |
2019年10月24日。BERT基本的非大小写模型的测试版本,从头开始训练,使用芬兰新闻、在线讨论和爬取的数据语料库。
在这里下载模型: bert-base-finnish-uncased.zip
2019年9月30日。我们发布了一个基本的带大小写模型的测试版本,从头开始使用芬兰新闻、在线讨论和爬取的数据语料库进行训练。
在这里下载模型: bert-base-finnish-cased.zip