IndicBERT是由独家预训练的多语言ALBERT模型,仅在12种主要的印度语言上进行了预训练。它在约90亿个标记的新颖单语语料库上进行了预训练,并在一系列多样任务上进行了评估。IndicBERT的参数比其他多语言模型(如mBERT、XLM-R等)要少得多,同时它的性能与这些模型持平或更好。
IndicBERT涵盖的12种语言有:阿萨姆语、孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语、泰卢固语。
代码可以在 here 中找到。更多信息,请查看我们的 project page 或者 paper 。
我们在AI4Bharat的单语语料库上对indic-bert进行了预训练。语料库的语言分布如下:
Language | as | bn | en | gu | hi | kn | |
---|---|---|---|---|---|---|---|
No. of Tokens | 36.9M | 815M | 1.34B | 724M | 1.84B | 712M | |
Language | ml | mr | or | pa | ta | te | all |
No. of Tokens | 767M | 560M | 104M | 814M | 549M | 671M | 8.9B |
IndicBERT在IndicGLUE和一些附加任务上进行了评估。以下是结果摘要。有关这些任务的更多详细信息,请参考我们的 official repo 。
IndicGLUETask | mBERT | XLM-R | IndicBERT |
---|---|---|---|
News Article Headline Prediction | 89.58 | 95.52 | 95.87 |
Wikipedia Section Title Prediction | 73.66 | 66.33 | 73.31 |
Cloze-style multiple-choice QA | 39.16 | 27.98 | 41.87 |
Article Genre Classification | 90.63 | 97.03 | 97.34 |
Named Entity Recognition (F1-score) | 73.24 | 65.93 | 64.47 |
Cross-Lingual Sentence Retrieval Task | 21.46 | 13.74 | 27.12 |
Average | 64.62 | 61.09 | 66.66 |
Task | Task Type | mBERT | XLM-R | IndicBERT |
---|---|---|---|---|
BBC News Classification | Genre Classification | 60.55 | 75.52 | 74.60 |
IIT Product Reviews | Sentiment Analysis | 74.57 | 78.97 | 71.32 |
IITP Movie Reviews | Sentiment Analaysis | 56.77 | 61.61 | 59.03 |
Soham News Article | Genre Classification | 80.23 | 87.6 | 78.45 |
Midas Discourse | Discourse Analysis | 71.20 | 79.94 | 78.44 |
iNLTK Headlines Classification | Genre Classification | 87.95 | 93.38 | 94.52 |
ACTSA Sentiment Analysis | Sentiment Analysis | 48.53 | 59.33 | 61.18 |
Winograd NLI | Natural Language Inference | 56.34 | 55.87 | 56.34 |
Choice of Plausible Alternative (COPA) | Natural Language Inference | 54.92 | 51.13 | 58.33 |
Amrita Exact Paraphrase | Paraphrase Detection | 93.81 | 93.02 | 93.75 |
Amrita Rough Paraphrase | Paraphrase Detection | 83.38 | 82.20 | 84.33 |
Average | 69.84 | 74.42 | 73.66 |
*注意:所有模型的max_seq_length都被限制为128。
可以从 here 下载该模型。存档中包括tf checkpoints和pytorch binaries。或者您也可以从 Huggingface 下载。
如果您使用了我们的任何资源,请引用以下文章:
@inproceedings{kakwani2020indicnlpsuite, title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}}, author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar}, year={2020}, booktitle={Findings of EMNLP}, }
如果:
IndicBERT代码(和模型)以MIT许可证发布。
这项工作是志愿者努力的成果,作为 AI4Bharat initiative 的一部分。