模型:
clips/republic
RePublic(公共服务组织声誉分析器)是一种基于Dutch BERT模型的荷兰人模型,基于BERTje(De Vries,2019)。该模型旨在预测关于公共机构的荷兰语新闻文章文本的情感。RePublic是由 CLiPS 与 Jan Boon 教授合作开发的。
可以通过以下方式加载和使用该模型进行预测:
from transformers import pipeline model_path = 'clips/republic' pipe = pipeline(task="text-classification", model=model_path, tokenizer=model_path) text = … # load your text here output = pipe(text) prediction = output[0]['label'] # 0=”neutral”; 1=”positive”; 2=”negative”
RePublic在来自2000年至2020年的三家流行弗拉芒新闻提供商的91,661篇弗拉芒新闻文章上进行了领域适应(“Het Laatste Nieuws”,“Het Nieuwsblad”和“De Morgen”)。这些文章至少提到24个预定义的公共服务组织之一,其中包括De Lijn(公共交通组织),VDAB(弗拉芒职业服务机构)和Agentschap Zorg en Gezondheid(医疗保健服务机构)。通过执行BERT的语言建模任务(掩码语言建模和下一个句子预测),实现了领域适应。
然后,该模型在情感分类任务(“积极”,“消极”,“中立”)上进行了微调。监督数据包括4404个注释句子,提到了弗拉芒公共机构,其中1257个句子是积极的,1485个句子是消极的,1662个句子是中立的。微调使用批量大小为8和学习率为5e-5进行了4个epoch的训练。为了评估模型,进行了一个10折交叉验证实验。该实验的结果如下。
Class | Precision (%) | Recall (%) | F1-score (%) |
---|---|---|---|
Positive | 87.3 | 88.6 | 88.0 |
Negative | 86.4 | 86.5 | 86.5 |
Neutral | 85.3 | 84.2 | 84.7 |
Macro-averaged | 86.3 | 86.4 | 86.4 |