数据集:
persiannlp/parsinlu_reading_comprehension
任务:
问答子任务:
extractive-qa语言:
fa计算机处理:
monolingual大小:
1K<n<10K语言创建人:
expert-generated批注创建人:
expert-generated预印本库:
arxiv:2012.06154许可:
cc-by-nc-sa-4.0A Persian reading comprehenion task (generating an answer, given a question and a context paragraph). The questions are mined using Google auto-complete, their answers and the corresponding evidence documents are manually annotated by native speakers.
[More Information Needed]
The text dataset is in Persian ( fa ).
Here is an example from the dataset:
{ 'question': 'پیامبر در چه سالی به پیامبری رسید؟', 'url': 'https://fa.wikipedia.org/wiki/%D9%85%D8%AD%D9%85%D8%AF', 'passage': 'محمد که از روش زندگی مردم مکه ناخشنود بود، گهگاه در غار حرا در یکی از کوه\u200cهای اطراف آن دیار به تفکر و عبادت می\u200cپرداخت. به باور مسلمانان، محمد در همین مکان و در حدود ۴۰ سالگی از طرف خدا به پیامبری برگزیده، و وحی بر او فروفرستاده شد. در نظر آنان، دعوت محمد همانند دعوت دیگر پیامبرانِ کیش یکتاپرستی مبنی بر این بود که خداوند (الله) یکتاست و تسلیم شدن برابر خدا راه رسیدن به اوست.', 'answers': [ {'answer_start': 160, 'answer_text': 'حدود ۴۰ سالگی'} ] }
The train/test split contains 600/575 samples.
The question were collected via Google auto-complete. The answers were annotated by native speakers. For more details, check the corresponding draft .
[More Information Needed]
Who are the source language producers?[More Information Needed]
[More Information Needed]
Who are the annotators?[More Information Needed]
[More Information Needed]
[More Information Needed]
[More Information Needed]
[More Information Needed]
[More Information Needed]
CC BY-NC-SA 4.0 License
@article{huggingface:dataset, title = {ParsiNLU: A Suite of Language Understanding Challenges for Persian}, authors = {Khashabi, Daniel and Cohan, Arman and Shakeri, Siamak and Hosseini, Pedram and Pezeshkpour, Pouya and Alikhani, Malihe and Aminnaseri, Moin and Bitaab, Marzieh and Brahman, Faeze and Ghazarian, Sarik and others}, year={2020} journal = {arXiv e-prints}, eprint = {2012.06154}, }
Thanks to @danyaljj for adding this dataset.