模型:
HooshvareLab/bert-fa-base-uncased
用于波斯语理解的基于Transformer的模型
我们重新构建了词汇表,并在新的波斯语语料库上对ParsBERT v1.1进行了微调,以便为在其他领域使用ParsBERT提供一些功能!请关注 ParsBERT 仓库以获取有关以往和当前模型的最新信息。
ParsBERT是基于Google的BERT架构的单语言模型。该模型在大量带有各种写作风格的波斯语语料库上进行了预训练,这些语料库涵盖了多个主题(例如科学、小说、新闻),包括 3.9M 个文档、73M 句子和 1.3B 个词语。
ParsBERT的论文: arXiv:2005.12515
您可以使用原始模型进行掩码语言建模或下一个句子预测,但主要用途是对下游任务进行微调。看看 model hub 以寻找您感兴趣的任务上已经微调的版本。
from transformers import AutoConfig, AutoTokenizer, TFAutoModel config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased") tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased") model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased") text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است." tokenizer.tokenize(text) >>> ['ما', 'در', 'هوش', '##واره', 'معتقدیم', 'با', 'انتقال', 'صحیح', 'دانش', 'و', 'اگاهی', '،', 'همه', 'افراد', 'میتوانند', 'از', 'ابزارهای', 'هوشمند', 'استفاده', 'کنند', '.', 'شعار', 'ما', 'هوش', 'مصنوعی', 'برای', 'همه', 'است', '.']Pytorch
from transformers import AutoConfig, AutoTokenizer, AutoModel config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased") tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased") model = AutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")
ParsBERT 在大量公共语料库( Persian Wikidumps , MirasText )和其他六个手动抓取的来自不同类型网站的文本数据( BigBang Page 科学, Chetor 生活方式, Eligasht 行程安排, Digikala 数字杂志, Ted Talks 一般对话,书籍小说、故事书,从古代到现代)上进行了训练。
作为ParsBERT方法的一部分,进行了广泛的预处理,包括POS标记和WordPiece分词,以使语料库具有适当的格式。
训练期间的目标如下(300k步之后)。
***** Eval results ***** global_step = 300000 loss = 1.4392426 masked_lm_accuracy = 0.6865794 masked_lm_loss = 1.4469004 next_sentence_accuracy = 1.0 next_sentence_loss = 6.534152e-05
ParsBERT 在三个自然语言处理的下游任务上进行了评估:情感分析(SA)、文本分类和命名实体识别(NER)。由于资源不足,为此手动编排了两个用于情感分析和两个用于文本分类的大型数据集,可供公众使用和对比。ParsBERT 在所有任务中均优于其他语言模型,包括多语言BERT和其他混合深度学习模型,提升了波斯语语言模型的最新性能。
Dataset | ParsBERT v2 | ParsBERT v1 | mBERT | DeepSentiPers |
---|---|---|---|---|
Digikala User Comments | 81.72 | 81.74* | 80.74 | - |
SnappFood User Comments | 87.98 | 88.12* | 87.87 | - |
SentiPers (Multi Class) | 71.31* | 71.11 | - | 69.33 |
SentiPers (Binary Class) | 92.42* | 92.13 | - | 91.98 |
Dataset | ParsBERT v2 | ParsBERT v1 | mBERT |
---|---|---|---|
Digikala Magazine | 93.65* | 93.59 | 90.72 |
Persian News | 97.44* | 97.19 | 95.79 |
Dataset | ParsBERT v2 | ParsBERT v1 | mBERT | MorphoBERT | Beheshti-NER | LSTM-CRF | Rule-Based CRF | BiLSTM-CRF |
---|---|---|---|---|---|---|---|---|
PEYMA | 93.40* | 93.10 | 86.64 | - | 90.59 | - | 84.00 | - |
ARMAN | 99.84* | 98.79 | 95.89 | 89.9 | 84.03 | 86.55 | - | 77.45 |
请在出版物中引用如下内容:
@article{ParsBERT, title={ParsBERT: Transformer-based Model for Persian Language Understanding}, author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri}, journal={ArXiv}, year={2020}, volume={abs/2005.12515} }
在 ParsBERT Issues 仓库上发布一个 Github 问题。