数据集:
iapp_wiki_qa_squad
iapp_wiki_qa_squad is an extractive question answering dataset from Thai Wikipedia articles. It is adapted from the original iapp-wiki-qa-dataset to SQuAD format, resulting in 5761/742/739 questions from 1529/191/192 articles.
extractive question answering
Thai
An example from the dataset:
{'article_id': '0U2lA8nJQESIxbZrjZQc', 'question_id': '0U2lA8nJQESIxbZrjZQc_000', 'context': 'นายสุวัฒน์ วรรณศิริกุล (1 พฤศจิกายน พ.ศ. 2476 - 31 กรกฎาคม พ.ศ. 2555) อดีตรองหัวหน้าพรรคพลังประชาชน อดีตประธานสมาชิกสภาผู้แทนราษฎร และประธานภาคกรุงเทพมหานคร พรรคพลังประชาชน อดีตสมาชิกสภาผู้แทนราษฎรกรุงเทพมหานครหลายสมัย ได้รับการเลือกตั้งเป็นสมาชิกสภาผู้แทนราษฎรครั้งแรกในปี พ.ศ. 2529 ในสังกัดพรรคประชากรไทย และสังกัดพรรคพลังประชาชน เป็นพรรคสุดท้าย', 'question': 'สุวัฒน์ วรรณศิริกุล เกิดวันที่เท่าไร', 'answers': {'text': ['1 พฤศจิกายน พ.ศ. 2476'], 'answer_start': [24], 'answer_end': [45]}, 'title': 'สุวัฒน์ วรรณศิริกุล', 'created_by': 'gmnjGRF0y0g7QRZDd9Qgz3AgiHJ3', 'created_on': '2019-08-18 05:05:51.358000+00:00', 'is_pay': {'date': None, 'status': False}} {'article_id': '01KZTrxgvC5mOovXFMPJ', 'question_id': '01KZTrxgvC5mOovXFMPJ_000', 'context': 'พัทธ์ธีรา ศรุติพงศ์โภคิน (เกิด 3 ธันวาคม พ.ศ. 2533) หรือชื่อเล่นว่า อร เป็นนักแสดงหญิงชาวไทย สำเร็จมัธยมศึกษาจากCatholic Cathedral College ประเทศนิวซีแลนด์ และปริญญาตรีจากRaffles International College สาขา Business Marketing\n\nเข้าสู่วงการตั้งแต่อายุ 6 ขวบ จากการแสดงละครเวทีกับ ครูชลประคัลภ์ จันทร์เรือง จากนั้นก็เล่นโฆษณาในวัยเด็ก 2- 3 ชิ้น และยังเคยแสดงช่วงละครสั้น ในรายการซุปเปอร์จิ๋ว ประมาณปี 2542\n\nปัจจุบันเป็นทั้ง นักแสดง , พิธีกร และ วีเจ อยู่ที่คลื่น เก็ท 102.5 Bangkok International Hits Music Station และยังเป็นพิธีกรให้กับช่อง ทรู มิวสิก', 'question': 'พัทธ์ธีรา ศรุติพงศ์โภคิน เกิดวันที่เท่าไร', 'answers': {'text': ['3 ธันวาคม พ.ศ. 2533'], 'answer_start': [31], 'answer_end': [50]}, 'title': 'พัทธ์ธีรา ศรุติพงศ์โภคิน', 'created_by': 'gmnjGRF0y0g7QRZDd9Qgz3AgiHJ3', 'created_on': '2019-08-07 14:00:38.778000+00:00', 'is_pay': {'status': True, 'total': 2.5, 'date': '2019-08-13 10:47:28.095000+00:00'}}
{ "question_id": question id "article_id": article id "title": article title "context": article texts "question": question "answers": { "text": answer text "answer_start": answer beginning position "answer_end": answer exclusive upper bound position } ), }
train | valid | test | |
---|---|---|---|
# questions | 5761 | 742 | 739 |
# articles | 1529 | 191 | 192 |
[More Information Needed]
From the original iapp-wiki-qa-dataset , @cstorm125 applied the following processing:
Wikipedia authors for contexts and annotators hired by iApp for questions and answer annotations
Annotators hired by iApp are asked create questions and answers for each article.
Who are the annotators?Annotators hired by iApp
All contents are from Wikipedia. No personal and sensitive information is expected to be included.
[More Information Needed]
[More Information Needed]
Original dataset by iApp . SQuAD formattting by PyThaiNLP .
MIT
@dataset{kobkrit_viriyayudhakorn_2021_4539916, author = {Kobkrit Viriyayudhakorn and Charin Polpanumas}, title = {iapp\_wiki\_qa\_squad}, month = feb, year = 2021, publisher = {Zenodo}, version = 1, doi = {10.5281/zenodo.4539916}, url = {https://doi.org/10.5281/zenodo.4539916} }
Thanks to @cstorm125 for adding this dataset.