数据集:
PlanTL-GOB-ES/SQAC
任务:
问答子任务:
extractive-qa语言:
es计算机处理:
monolingual语言创建人:
found批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1606.05250许可:
cc-by-sa-4.0SQAC is an extractive QA dataset for the Spanish language.
Contains 6,247 contexts and 18,817 questions with their respective answers, 1 to 5 for each fragment.
The sources of the contexts are:
Extractive-QA
{ 'id': '6cf3dcd6-b5a3-4516-8f9e-c5c1c6b66628', 'title': 'Historia de Japón', 'context': 'La historia de Japón (日本の歴史 o 日本史, Nihon no rekishi / Nihonshi?) es la sucesión de hechos acontecidos dentro del archipiélago japonés. Algunos de estos hechos aparecen aislados e influenciados por la naturaleza geográfica de Japón como nación insular, en tanto que otra serie de hechos, obedece a influencias foráneas como en el caso del Imperio chino, el cual definió su idioma, su escritura y, también, su cultura política. Asimismo, otra de las influencias foráneas fue la de origen occidental, lo que convirtió al país en una nación industrial, ejerciendo con ello una esfera de influencia y una expansión territorial sobre el área del Pacífico. No obstante, dicho expansionismo se detuvo tras la Segunda Guerra Mundial y el país se posicionó en un esquema de nación industrial con vínculos a su tradición cultural.', 'question': '¿Qué influencia convirtió Japón en una nación industrial?', 'answers': { 'text': ['la de origen occidental'], 'answer_start': [473] } }
{ id: str title: str context: str question: str answers: { answer_start: [int] text: [str] } }
Split | Size |
---|---|
train | 15,036 |
dev | 1,864 |
test | 1.910 |
46.38% of the words in the Question can be found in the Context.
Question | Count | % |
---|---|---|
qué | 6,381 | 33.91 % |
quién/es | 2,952 | 15.69 % |
cuál/es | 2,034 | 10.81 % |
cómo | 1,949 | 10.36 % |
dónde | 1,856 | 9.86 % |
cuándo | 1,639 | 8.71 % |
cuánto | 1,311 | 6.97 % |
cuántos | 495 | 2.63 % |
adónde | 100 | 0.53 % |
cuánta | 49 | 0.26 % |
no question mark | 43 | 0.23 % |
cuántas | 19 | 0.10 % |
For compatibility with similar datasets in other languages, we followed as close as possible existing curation guidelines from SQUAD 1.0 (Rajpurkar, Pranav et al.) .
The source data are scraped articles from Wikinews, the Spanish Wikipedia and the AnCora corpus.
Who are the source language producers?Contributors to the aforementioned sites.
We commissioned the creation of 1 to 5 questions for each context, following an adaptation of the guidelines from SQUAD 1.0 (Rajpurkar, Pranav et al.) .
Who are the annotators?Native language speakers.
No personal or sensitive information included.
This corpus contributes to the development of language models in Spanish.
No postprocessing steps were applied to mitigate potential social biases.
Text Mining Unit (TeMU) at the Barcelona Supercomputing Center ( bsc-temu@bsc.es ).
For further information, send an email to ( plantl-gob-es@bsc.es ).
This work was funded by the Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) within the framework of the Plan-TL .
This work is licensed under CC Attribution 4.0 International License.
Copyright by the Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) (2022)
@article{maria, author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas}, title = {MarIA: Spanish Language Models}, journal = {Procesamiento del Lenguaje Natural}, volume = {68}, number = {0}, year = {2022}, issn = {1989-7553}, url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405}, pages = {39--60} }
[N/A]