IndoBERTweet 🐦

1. 论文

Fajri Koto，Jey Han Lau 和 Timothy Baldwin。 IndoBERTweet: A Pretrained Language Model for Indonesian Twitter with Effective Domain-Specific Vocabulary Initialization 。在第2021届经验方法在自然语言处理方面的会议（EMNLP 2021），多米尼加共和国（虚拟）的论文集中。

2. 关于

IndoBERTweet 是针对印度尼西亚Twitter的第一个大规模预训练模型，它通过扩展在单一语言环境下训练的印度尼西亚BERT模型，并使用特定领域的词汇进行训练。

在本文中，我们证明了使用BERT子词嵌入的平均池化来初始化特定领域词汇比从头开始预训练更高效，也比基于word2vec投影进行初始化更有效。

3. 预训练数据

我们使用官方Twitter API在2019年12月至2020年12月期间爬取印度尼西亚推文，涵盖经济、健康、教育和政府这4个主要话题的60个关键词。我们总共获得了409M个词标记，比用于预训练 IndoBERT 的训练数据还要大两倍。由于Twitter的政策，这些预训练数据不会公开发布。

4. 如何使用

加载模型和分词器（测试过的transformers==3.5.1）

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("indolem/indobertweet-base-uncased")
model = AutoModel.from_pretrained("indolem/indobertweet-base-uncased")

预处理步骤：

将所有单词转换为小写
将用户提及和URL转换为@USER和HTTPURL
使用 emoji package 将表情符号翻译为文本。

5. 在7个印度尼西亚Twitter数据集上的结果

Models	Sentiment	Emotion	Hate Speech	NER	Average
IndoLEM	SmSA	EmoT	HS1	HS2	Formal	Informal
mBERT	76.6	84.7	67.5	85.1	75.1	85.2	83.2	79.6
malayBERT	82.0	84.1	74.2	85.0	81.9	81.9	81.3	81.5
IndoBERT (Willie, et al., 2020)	84.1	88.7	73.3	86.8	80.4	86.3	84.3	83.4
IndoBERT (Koto, et al., 2020)	84.1	87.9	71.0	86.4	79.3	88.0	86.9	83.4
IndoBERTweet (1M steps from scratch)	86.2	90.4	76.0	88.8	87.5	88.1	85.4	86.1
IndoBERT + Voc adaptation + 200k steps	86.6	92.7	79.0	88.4	84.0	87.7	86.9	86.5

引用

如果您使用了我们的工作，请引用：

@inproceedings{koto2021indobertweet,
  title={IndoBERTweet: A Pretrained Language Model for Indonesian Twitter with Effective Domain-Specific Vocabulary Initialization},
  author={Fajri Koto and Jey Han Lau and Timothy Baldwin},
  booktitle={Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP 2021)},
  year={2021}
}

作者:

IndoLEM

数据集大小:

1.24 GB