英文

ParsBERT (v2.0)

用于波斯语理解的基于Transformer的模型

我们重新构建了词汇表,并在新的波斯语语料库上对ParsBERT v1.1进行了微调,以便为在其他领域使用ParsBERT提供一些功能!请关注 ParsBERT 仓库以获取有关以往和当前模型的最新信息。

介绍

ParsBERT是基于Google的BERT架构的单语言模型。该模型在大量带有各种写作风格的波斯语语料库上进行了预训练,这些语料库涵盖了多个主题(例如科学、小说、新闻),包括 3.9M 个文档、73M 句子和 1.3B 个词语。

ParsBERT的论文: arXiv:2005.12515

预期用途和限制

您可以使用原始模型进行掩码语言建模或下一个句子预测,但主要用途是对下游任务进行微调。看看 model hub 以寻找您感兴趣的任务上已经微调的版本。

如何使用

TensorFlow 2.0
from transformers import AutoConfig, AutoTokenizer, TFAutoModel

config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")

text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)

>>> ['ما', 'در', 'هوش', '##واره', 'معتقدیم', 'با', 'انتقال', 'صحیح', 'دانش', 'و', 'اگاهی', '،', 'همه', 'افراد', 'میتوانند', 'از', 'ابزارهای', 'هوشمند', 'استفاده', 'کنند', '.', 'شعار', 'ما', 'هوش', 'مصنوعی', 'برای', 'همه', 'است', '.']
Pytorch
from transformers import AutoConfig, AutoTokenizer, AutoModel

config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")

训练

ParsBERT 在大量公共语料库( Persian Wikidumps MirasText )和其他六个手动抓取的来自不同类型网站的文本数据( BigBang Page 科学, Chetor 生活方式, Eligasht 行程安排, Digikala 数字杂志, Ted Talks 一般对话,书籍小说、故事书,从古代到现代)上进行了训练。

作为ParsBERT方法的一部分,进行了广泛的预处理,包括POS标记和WordPiece分词,以使语料库具有适当的格式。

目标

训练期间的目标如下(300k步之后)。

***** Eval results *****
global_step = 300000
loss = 1.4392426
masked_lm_accuracy = 0.6865794
masked_lm_loss = 1.4469004
next_sentence_accuracy = 1.0
next_sentence_loss = 6.534152e-05

派生模型

基本配置

ParsBERT v2.0 模型 ParsBERT v2.0 情感分析 ParsBERT v2.0 文本分类 ParsBERT v2.0 NER

评估结果

ParsBERT 在三个自然语言处理的下游任务上进行了评估:情感分析(SA)、文本分类和命名实体识别(NER)。由于资源不足,为此手动编排了两个用于情感分析和两个用于文本分类的大型数据集,可供公众使用和对比。ParsBERT 在所有任务中均优于其他语言模型,包括多语言BERT和其他混合深度学习模型,提升了波斯语语言模型的最新性能。

情感分析(SA)任务

Dataset ParsBERT v2 ParsBERT v1 mBERT DeepSentiPers
Digikala User Comments 81.72 81.74* 80.74 -
SnappFood User Comments 87.98 88.12* 87.87 -
SentiPers (Multi Class) 71.31* 71.11 - 69.33
SentiPers (Binary Class) 92.42* 92.13 - 91.98

文本分类(TC)任务

Dataset ParsBERT v2 ParsBERT v1 mBERT
Digikala Magazine 93.65* 93.59 90.72
Persian News 97.44* 97.19 95.79

命名实体识别(NER)任务

Dataset ParsBERT v2 ParsBERT v1 mBERT MorphoBERT Beheshti-NER LSTM-CRF Rule-Based CRF BiLSTM-CRF
PEYMA 93.40* 93.10 86.64 - 90.59 - 84.00 -
ARMAN 99.84* 98.79 95.89 89.9 84.03 86.55 - 77.45

BibTeX条目和引用信息

请在出版物中引用如下内容:

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}

有问题?

ParsBERT Issues 仓库上发布一个 Github 问题。