英文

RePublic

模型描述

RePublic(公共服务组织声誉分析器)是一种基于Dutch BERT模型的荷兰人模型,基于BERTje(De Vries,2019)。该模型旨在预测关于公共机构的荷兰语新闻文章文本的情感。RePublic是由 CLiPS Jan Boon 教授合作开发的。

使用方法

可以通过以下方式加载和使用该模型进行预测:

from transformers import pipeline
model_path = 'clips/republic'
pipe = pipeline(task="text-classification", 
          model=model_path, tokenizer=model_path)	
text = … # load your text here
output = pipe(text)
prediction  = output[0]['label'] # 0=”neutral”; 1=”positive”; 2=”negative”

训练数据和过程

RePublic在来自2000年至2020年的三家流行弗拉芒新闻提供商的91,661篇弗拉芒新闻文章上进行了领域适应(“Het Laatste Nieuws”,“Het Nieuwsblad”和“De Morgen”)。这些文章至少提到24个预定义的公共服务组织之一,其中包括De Lijn(公共交通组织),VDAB(弗拉芒职业服务机构)和Agentschap Zorg en Gezondheid(医疗保健服务机构)。通过执行BERT的语言建模任务(掩码语言建模和下一个句子预测),实现了领域适应。

然后,该模型在情感分类任务(“积极”,“消极”,“中立”)上进行了微调。监督数据包括4404个注释句子,提到了弗拉芒公共机构,其中1257个句子是积极的,1485个句子是消极的,1662个句子是中立的。微调使用批量大小为8和学习率为5e-5进行了4个epoch的训练。为了评估模型,进行了一个10折交叉验证实验。该实验的结果如下。

Class Precision (%) Recall (%) F1-score (%)
Positive 87.3 88.6 88.0
Negative 86.4 86.5 86.5
Neutral 85.3 84.2 84.7
Macro-averaged 86.3 86.4 86.4