模型:
indolem/indobertweet-base-uncased
Fajri Koto,Jey Han Lau 和 Timothy Baldwin。 IndoBERTweet: A Pretrained Language Model for Indonesian Twitter with Effective Domain-Specific Vocabulary Initialization 。在第2021届经验方法在自然语言处理方面的会议(EMNLP 2021),多米尼加共和国(虚拟)的论文集中。
IndoBERTweet 是针对印度尼西亚Twitter的第一个大规模预训练模型,它通过扩展在单一语言环境下训练的印度尼西亚BERT模型,并使用特定领域的词汇进行训练。
在本文中,我们证明了使用BERT子词嵌入的平均池化来初始化特定领域词汇比从头开始预训练更高效,也比基于word2vec投影进行初始化更有效。
我们使用官方Twitter API在2019年12月至2020年12月期间爬取印度尼西亚推文,涵盖经济、健康、教育和政府这4个主要话题的60个关键词。我们总共获得了409M个词标记,比用于预训练 IndoBERT 的训练数据还要大两倍。由于Twitter的政策,这些预训练数据不会公开发布。
加载模型和分词器(测试过的transformers==3.5.1)
from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("indolem/indobertweet-base-uncased") model = AutoModel.from_pretrained("indolem/indobertweet-base-uncased")
预处理步骤:
Models | Sentiment | Emotion | Hate Speech | NER | Average | |||
---|---|---|---|---|---|---|---|---|
IndoLEM | SmSA | EmoT | HS1 | HS2 | Formal | Informal | ||
mBERT | 76.6 | 84.7 | 67.5 | 85.1 | 75.1 | 85.2 | 83.2 | 79.6 |
malayBERT | 82.0 | 84.1 | 74.2 | 85.0 | 81.9 | 81.9 | 81.3 | 81.5 |
IndoBERT (Willie, et al., 2020) | 84.1 | 88.7 | 73.3 | 86.8 | 80.4 | 86.3 | 84.3 | 83.4 |
IndoBERT (Koto, et al., 2020) | 84.1 | 87.9 | 71.0 | 86.4 | 79.3 | 88.0 | 86.9 | 83.4 |
IndoBERTweet (1M steps from scratch) | 86.2 | 90.4 | 76.0 | 88.8 | 87.5 | 88.1 | 85.4 | 86.1 |
IndoBERT + Voc adaptation + 200k steps | 86.6 | 92.7 | 79.0 | 88.4 | 84.0 | 87.7 | 86.9 | 86.5 |
如果您使用了我们的工作,请引用:
@inproceedings{koto2021indobertweet, title={IndoBERTweet: A Pretrained Language Model for Indonesian Twitter with Effective Domain-Specific Vocabulary Initialization}, author={Fajri Koto and Jey Han Lau and Timothy Baldwin}, booktitle={Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP 2021)}, year={2021} }