TurkuNLP/bert-base-finnish-cased-v1 | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

TurkuNLP/bert-base-finnish-cased-v1

任务:

类库:

语言:

其他:

预印本库:

快速入门

1.0 版本（2019年11月25日）

我们通常建议使用cased模型。

介绍芬兰BERT的论文： arXiv:1912.07076

这是Google的 BERT 深度迁移学习模型的一个版本，专为芬兰语而设计。该模型可以微调以实现各种芬兰自然语言处理任务的最新效果。

FinBERT采用了一个自定义的50,000个词片段词汇表，比之前从Google发布的 multilingual BERT 模型的覆盖范围更好：

Vocabulary	Example
FinBERT	Suomessa vaihtuu kesän aikana sekä pääministeri että valtiovarain ##ministeri .
Multilingual BERT	Suomessa vai ##htuu kes ##än aikana sekä p ##ää ##minister ##i että valt ##io ##vara ##in ##minister ##i .

FinBERT已经在从新闻、在线讨论和互联网爬虫中收集的30亿个标记（24B个字符）的芬兰文本上进行了100万步的预训练。相比之下，多语言BERT是在维基百科文本上进行训练的，其中芬兰维基百科的文本量约为用于训练FinBERT的文本量的3%。

这些特点使得FinBERT在微调芬兰自然语言处理任务时不仅优于多语言BERT，而且优于先前提出的所有模型。

在Yle新闻（左）和Ylilauta在线讨论（右）语料库上，FinBERT在文档分类上的性能超过了多语言BERT（M-BERT）在一系列训练集大小上的性能。（包含参考的基准分类性能，其中包括 FastText ）

评估结果使用FiNER语料库（ Ruokolainen et al 2019 ）

（来自 Ruokolainen et al. 2019 的FiNER标记结果）

[ code ] [ data ]

在三个使用 Universal Dependencies 词性标签进行注释的芬兰文语料库上进行评估：Turku Dependency Treebank（TDT），FinnTreeBank（FTB）和Parallel UD treebank（PUD）

Model	TDT	FTB	PUD
FinBERT	98.23%	98.39%	98.08%
Multilingual BERT	96.97%	95.87%	97.58%

[ code ] [ data ]

2019年10月24日。BERT基本的非大小写模型的测试版本，从头开始训练，使用芬兰新闻、在线讨论和爬取的数据语料库。

2019年9月30日。我们发布了一个基本的带大小写模型的测试版本，从头开始使用芬兰新闻、在线讨论和爬取的数据语料库进行训练。

作者:

TurkuNLP Research Group

数据集大小:

1.54 GB