模型:

ai4bharat/indic-bert

英文

IndicBERT

IndicBERT是由独家预训练的多语言ALBERT模型,仅在12种主要的印度语言上进行了预训练。它在约90亿个标记的新颖单语语料库上进行了预训练,并在一系列多样任务上进行了评估。IndicBERT的参数比其他多语言模型(如mBERT、XLM-R等)要少得多,同时它的性能与这些模型持平或更好。

IndicBERT涵盖的12种语言有:阿萨姆语、孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语、泰卢固语。

代码可以在 here 中找到。更多信息,请查看我们的 project page 或者 paper

预训练语料库

我们在AI4Bharat的单语语料库上对indic-bert进行了预训练。语料库的语言分布如下:

Language as bn en gu hi kn
No. of Tokens 36.9M 815M 1.34B 724M 1.84B 712M
Language ml mr or pa ta te all
No. of Tokens 767M 560M 104M 814M 549M 671M 8.9B

评估结果

IndicBERT在IndicGLUE和一些附加任务上进行了评估。以下是结果摘要。有关这些任务的更多详细信息,请参考我们的 official repo

IndicGLUE
Task mBERT XLM-R IndicBERT
News Article Headline Prediction 89.58 95.52 95.87
Wikipedia Section Title Prediction 73.66 66.33 73.31
Cloze-style multiple-choice QA 39.16 27.98 41.87
Article Genre Classification 90.63 97.03 97.34
Named Entity Recognition (F1-score) 73.24 65.93 64.47
Cross-Lingual Sentence Retrieval Task 21.46 13.74 27.12
Average 64.62 61.09 66.66
追加任务
Task Task Type mBERT XLM-R IndicBERT
BBC News Classification Genre Classification 60.55 75.52 74.60
IIT Product Reviews Sentiment Analysis 74.57 78.97 71.32
IITP Movie Reviews Sentiment Analaysis 56.77 61.61 59.03
Soham News Article Genre Classification 80.23 87.6 78.45
Midas Discourse Discourse Analysis 71.20 79.94 78.44
iNLTK Headlines Classification Genre Classification 87.95 93.38 94.52
ACTSA Sentiment Analysis Sentiment Analysis 48.53 59.33 61.18
Winograd NLI Natural Language Inference 56.34 55.87 56.34
Choice of Plausible Alternative (COPA) Natural Language Inference 54.92 51.13 58.33
Amrita Exact Paraphrase Paraphrase Detection 93.81 93.02 93.75
Amrita Rough Paraphrase Paraphrase Detection 83.38 82.20 84.33
Average 69.84 74.42 73.66

*注意:所有模型的max_seq_length都被限制为128。

下载

可以从 here 下载该模型。存档中包括tf checkpoints和pytorch binaries。或者您也可以从 Huggingface 下载。

引用

如果您使用了我们的任何资源,请引用以下文章:

@inproceedings{kakwani2020indicnlpsuite,
    title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
    author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
    year={2020},
    booktitle={Findings of EMNLP},
}

如果:

  • 您正在使用我们的资源,请告诉我们您如何使用这些资源。
  • 您对这些资源有任何反馈。

许可证

IndicBERT代码(和模型)以MIT许可证发布。

贡献者

  • Divyanshu Kakwani
  • Anoop Kunchukuttan
  • Gokul NC
  • Satish Golla
  • Avik Bhattacharyya
  • Mitesh Khapra
  • Pratyush Kumar

这项工作是志愿者努力的成果,作为 AI4Bharat initiative 的一部分。

联系方式

  • Anoop Kunchukuttan (anoop.kunchukuttan@gmail.com)
  • Mitesh Khapra (miteshk@cse.iitm.ac.in)
  • Pratyush Kumar (pratyush@cse.iitm.ac.in)