数据集:
GEM/wiki_lingua
可以在 GEM Website 上找到主数据卡片。
占位符
可通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/wiki_lingua')
数据加载器可以在 here 上找到。
网站
无(请参见存储库)
论文
https://www.aclweb.org/anthology/2020.findings-emnlp.360/
作者
Faisal Ladhak(哥伦比亚大学),Esin Durmus(斯坦福大学),Claire Cardie(康奈尔大学),Kathleen McKeown(哥伦比亚大学)
网页
无(请参见存储库)
下载
https://github.com/esdurmus/Wikilingua
论文
https://www.aclweb.org/anthology/2020.findings-emnlp.360/
BibTex
@inproceedings{ladhak-etal-2020-wikilingua, title = "{W}iki{L}ingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization", author = "Ladhak, Faisal and Durmus, Esin and Cardie, Claire and McKeown, Kathleen", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = " https://aclanthology.org/2020.findings-emnlp.360" , doi = "10.18653/v1/2020.findings-emnlp.360", pages = "4034--4048", abstract = "We introduce WikiLingua, a large-scale, multilingual dataset for the evaluation of cross-lingual abstractive summarization systems. We extract article and summary pairs in 18 languages from WikiHow, a high quality, collaborative resource of how-to guides on a diverse set of topics written by human authors. We create gold-standard article-summary alignments across languages by aligning the images that are used to describe each how-to step in an article. As a set of baselines for further studies, we evaluate the performance of existing cross-lingual abstractive summarization methods on our dataset. We further propose a method for direct cross-lingual summarization (i.e., without requiring translation at inference time) by leveraging synthetic data and Neural Machine Translation as a pre-training step. Our method significantly outperforms the baseline approaches, while being more cost efficient during inference.",}
联系人姓名
Faisal Ladhak,Esin Durmus
联系人电子邮件
faisal@cs.columbia.edu,esdurmus@stanford.edu
是否有排行榜?
否
是否多语言?
是
被覆盖的方言
数据集每种语言没有多个方言。
被覆盖的语言
英语,西班牙语,葡萄牙语,法语,德语,俄语,意大利语,印尼语,荷兰语,阿拉伯语,中文,越南语,泰语,日语,韩语,印地语,捷克语,土耳其语
使用者的语言是谁的?
没有关于用户人口统计信息的信息。
许可证
cc-by-nc-sa-3.0:知识共享署名-非商业性使用-相同方式共享3.0(CC BY-NC-SA 3.0)
预期使用
该数据集旨在作为跨语言摘要的大规模、高质量基准数据集。
主要任务
摘要
交际目标
为给定的输入文章生成高质量摘要。
策展组织类型
学术
策展组织
哥伦比亚大学
数据集创建者
Faisal Ladhak(哥伦比亚大学),Esin Durmus(斯坦福大学),Claire Cardie(康奈尔大学),Kathleen McKeown(哥伦比亚大学)
谁将数据集添加到GEM中?
Jenny Chim(伦敦玛丽女王大学),Faisal Ladhak(哥伦比亚大学)
数据字段
gem_id -- 数据实例的ID.source_language -- 源文章的语言.target_language -- 摘要的语言.source -- 源文件。
示例实例
{ "gem_id": "wikilingua_crosslingual-train-12345", "gem_parent_id": "wikilingua_crosslingual-train-12345", "source_language": "fr", "target_language": "de", "source": "文件在法语", "target": "摘要在德语"}
数据拆分
数据集分为训练集/验证集/测试集。除了完整的测试集外,还有抽样版本的测试集。
拆分标准
数据被拆分以确保相同的文档在不同语言中出现在相同的拆分中,以确保不会泄漏到测试集中。
该数据集为18种语言的跨语言摘要提供了大规模、高质量的资源,增加了GEM摘要任务的语言覆盖范围。
类似数据集
是的
独特的语言覆盖范围
是的
与其他GEM数据集的不同之处
XSum涵盖英语新闻文章,而MLSum涵盖德语和西班牙语的新闻文章。相比之下,该数据集包含18种语言的“如何”文章,大幅增加了覆盖的语言数量。此外,它还提供了与其他两个数据集不同的领域。
数据集度量能力
能够在多种语言中生成质量摘要的能力。
是否为GEM做了修改?
是的
GEM的修改
其他
修改详细信息
之前的版本每种语言都有单独的数据加载器。在此版本中,我们创建了一个包含18种语言中的单语数据的单个单语数据加载器。此外,我们还创建了一个跨所有语言对的跨语言数据加载器。
是否有其他拆分?
没有
评估模型的能力:能够摘要不同语言的内容。
度量标准:ROUGE
提出的评估方法:使用ROUGE来测量通过与参考摘要的词重叠进行内容选择。此外,数据集的作者还使用人工评估来评估系统的内容选择和流畅性。
是否有以前的结果可用?
没有
原始策展原理
创建该数据集旨在实现当前研究中尚未研究的跨语言和多语言摘要的新方法,同时为摘要研究开拓新的有趣方向。例如,探索多源跨语言体系结构,即可以将多个源语言摘要到目标语言的模型,为给定一组语言构建可以将文章从任意语言摘要到任意其他语言的模型。
交际目标
给定输入文章,生成目标语言的高质量摘要。
不同来源
否
语言数据是如何获得的?
找到的
它在哪里找到的?
单个网站
语言制片人
使用WikiHow作为数据源,该网站是由人类作者编写和审核的教程资源。
覆盖的主题
这些文章涵盖了19个大类,包括健康、艺术和娱乐、个人护理和风格、旅行、教育和通信等。这些类别涵盖了广泛的流派和主题。
数据验证
未验证
数据是否经过筛选?
未筛选
是否有其他注释?
没有
注释服务?
没有
是否有同意政策?
是
同意政策详细信息
(1)文本内容。所有用户在服务中发布的文本由WikiHow向其他用户授予次级许可,许可授予的文本内容可以根据此许可的条款自由用于非商业目的,只要在此许可的条款下使用和归属于原作者。允许自由再版我们的文章有助于wikiHow通过向更多人免费提供解决日常生活问题的说明来实现其目标。为了支持这一目标,wikiHow特此向每位服务的用户授予在知识共享署名-非商业性使用-相同方式共享3.0许可协议的条款和条件下向服务贡献的所有文本内容的许可。请务必仔细阅读许可证条款。您继续拥有所有您的用户内容的权利、所有权和利益,并且可以根据自己的意愿进行分发,无论用于商业还是非商业目的。
其他同意的下游使用
该数据根据知识共享许可证免费提供,因此没有针对非商业目的的下游使用的限制。
包含PII吗?
没有PII
为何没有包含PII
仅收集了文章文本和摘要。数据集中没有保留用户信息。
是否有维护计划?
没有
是否使用基于数据的模型?
是 - 其他具有相同任务的数据集
是否满足边缘社区的需求?
否
是否有已记录的社会偏见?
是
对数据集的版权限制
仅限非商业使用
对语言数据的版权限制
仅限非商业使用