数据集:
ai4bharat/IndicHeadlineGeneration
计算机处理:
multilingual语言创建人:
found批注创建人:
no-annotation源数据集:
original for Hindi, and modified [IndicGLUE](https original+for+Hindi,+and+modified+[IndicGLUE](https预印本库:
arxiv:2203.05437许可:
cc-by-nc-4.0IndicHeadlineGeneration is the news headline generation dataset released as part of IndicNLG Suite. Each input document is paired with an output as title. We create this dataset in eleven languages including as, bn, gu, hi, kn, ml, mr, or, pa, ta, te. The total size of the dataset is 1.4M.
Tasks: Headline Generation
Leaderboards: Currently there is no Leaderboard for this dataset.
One random example from the hi dataset is given below in JSON format.
{'id': '14', 'input': "अमेरिकी सिंगर अरियाना ग्रांडे का नया म्यूजिक एल्बम 'थैंक यू नेक्स्ट' रिलीज हो गया है।एक दिन पहले ही रिलीज हुए इस गाने को देखने वालों की संख्या 37,663,702 पहुंच गई है।यूट्यूब पर अपलोड इस गाने को 24 घंटे के भीतर 3.8 मिलियन लोगों ने पसंद किया है।अरियाना ग्रांडे नई दिल्लीः अमेरिकी सिंगर अरियाना ग्रांडे का नया म्यूजिक एल्बम 'थैंक यू नेक्स्ट' रिलीज हो गया है।एक दिन पहले ही रिलीज हुए इस गाने को देखने वालों की संख्या 37,663,702 पहुंच गई है।यूट्यूब पर अपलोड इस गाने को 24 घंटे के भीतर 3.8 मिलियन लोगों ने पसंद किया है।वहीं इस वीडियो पर कमेंट्स की बाढ़ आ गई है।गाने में मीन गर्ल्स, ब्रिंग इट ऑन, लीगली ब्लॉंड और 13 गोइंग 30 के कुछ फेमस सीन्स को दिखाया गया है।गाने में क्रिस जैनर का कैमियो भी है।बता दें अभी कुछ महीने पहले ही अरियाना के एक्स ब्वॉयफ्रेंड मैक मिलर का 26 साल की उम्र में निधन हो गया था।इस खबर को सुनकर अरियाना टूट सी गई थीं।उन्होंने सोशल मीडिया पर पोस्ट कर कई बार अपनी भावनाएं व्यक्त की।अरियाना ग्रांडे और रैपर मैक मिलर ने करीब 2 साल तक एक दूसरे को डेट किया।मैक के निधन की वजह ड्रग्स की ओवरडोज बताई गई।दोनों की मुलाकात साल 2012 में हुई थी।दोनों ने एक कंसर्ट में साथ कई गानों पर परफॉर्म भी किया था।जिसके बाद दोनों एक दूसरे को डेट करने लगे लेकिन नशे की लत के कारण अरियाना ने उनसे ब्रेकअप कर लिया।पर देश-विदेश की ताजा और स्पेशल स्टोरी पढ़ते हुए अपने आप को रखिए अप-टू-डेट।के लिए क्लिक करें सिनेमा सेक्शन", 'target': 'अरियाना ग्रांडे का नया गाना रिलीज, सोशल मीडिया पर वायरल', 'url': 'https://www.indiatv.in/entertainment/hollywood-ariana-grande-shatters-24-hour-views-record-612835' }
Here is the number of samples in each split for all the languages.
Language | ISO 639-1 Code | Train | Dev | Test | ---------- | ---------- | ---------- | ---------- | ---------- | Assamese | as | 29,631 | 14,592 | 14,808 | Bengali | bn | 113,424 | 14,739 | 14,568 | Gujarati | gu | 199,972 | 31,270 | 31,215 | Hindi | hi | 208,221 | 44,738 | 44,514 | Kannada | kn | 132,380 | 19,416 | 3,261 | Malayalam | ml | 10,358 | 5,388 | 5,220 | Marathi | mr | 114,042 | 14,253 | 14,340 | Oriya | or | 58,225 | 7,484 | 7,137 | Punjabi | pa | 48,441 | 6,108 | 6,086 | Tamil | ta | 60,650 | 7,616 | 7,688 | Telugu | te | 21,352 | 2,690 | 2,675 |
For hindi, web sources like Dainik Bhaskar , Naidunia , NDTV , Business Standard and IndiaTV . For other languages, modified IndicGLUE dataset.
Initial Data Collection and Normalization Who are the source language producers?[More information needed]
Annotation process[More information needed]
Who are the annotators?[More information needed]
[More information needed]
[More information needed]
[More information needed]
[More information needed]
[More information needed]
Contents of this repository are restricted to only non-commercial research purposes under the Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) . Copyright of the dataset contents belongs to the original copyright holders.
If you use any of the datasets, models or code modules, please cite the following paper:
@inproceedings{Kumar2022IndicNLGSM, title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages}, author={Aman Kumar and Himani Shrotriya and Prachi Sahu and Raj Dabre and Ratish Puduppully and Anoop Kunchukuttan and Amogh Mishra and Mitesh M. Khapra and Pratyush Kumar}, year={2022}, url = "https://arxiv.org/abs/2203.05437",