数据集:

humicroedit

英文

[Dataset Name] 的数据集卡片

数据集摘要

这是 SemEval-2020 任务7的任务数据集:评估编辑后新闻标题的幽默程度。

支持的任务和排行榜

Task Description Page

  • 回归任务:在这个任务中,给定原始标题和编辑后的标题,参与者需要预测编辑后标题的平均幽默程度。该任务的成功通常是通过达到较低的均方误差来衡量。
  • 预测两个编辑后标题中哪个更有趣:给定原始标题和两个编辑版本,参与者需要预测哪个编辑版本更有趣。该任务的成功通常是通过达到较高的准确度来衡量。

语言

英语

数据集结构

数据实例

对于子任务-1,即给定原始标题和编辑后标题,预测编辑后标题的平均幽默程度。

{
  'id': 1183,
  'original': 'Kushner to visit <Mexico/> following latest trump tirades.',
  'edit': 'therapist',
  'grades': '33332',
  'meanGrade': 2.8
}

对于子任务-2,即给定原始标题和两个编辑版本,预测哪个编辑版本更有趣。

{
  'id': 1183,
  'original1': 'Gene Cernan , Last <Astronaut/> on the Moon , Dies at 82',
  'edit1': 'Dancer',
  'grades1': '1113',
  'meanGrade1': 1.2, 
  'original2': 'Gene Cernan , Last Astronaut on the Moon , <Dies/> at 82',
  'edit2': 'impregnated',
  'grades2': '30001',
  'meanGrade2': 0.8, 
  'label': 1 
}

数据字段

对于子任务-1

  • id: 编辑后标题的唯一标识符。
  • original: 用</>标签标记的替换单词的标题。
  • edit: 新词,替换原始字段中</>标记的单词。
  • grades: “grades”是不同注释者的所有分数的串联。
  • mean: 所有评委评分的平均值。

对于子任务-2

  • id: 编辑后标题的唯一标识符。
  • original1: 用</>标签标记的替换单词的原始标题。
  • edit1: 新词,替换原始1字段中</>标记的单词。
  • grades1: 不同注释者为句子1注释的所有分数的串联。
  • meanGrade1: 句子1的所有评委评分的平均值。
  • original2: 用</>标签标记的替换单词的原始标题。
  • edit2: 新词,替换原始2字段中</>标记的单词。
  • grades2: 不同注释者为句子2注释的所有分数的串联。
  • meanGrade2: 句子2的所有评委评分的平均值。
  • label: 如果句子1比句子2更幽默,则为1,如果句子2比句子1更幽默,则为2,如果两个句子幽默程度相同,则为0。

数据拆分

Sub Task Train Dev Test Funlines
Subtask-1:Regression 9652 2419 3024 8248
Subtask-2: Funnier headline prediction 9381 2355 2960 1958

数据集创建

组织原因

[需要更多信息]

来源数据

初始数据收集和归一化

通过将其设计成游戏,通过funlines.co网站进行了众包数据收集。玩家在0-4的范围内对标题进行评级。根据他们的编辑和评分给玩家评分,并在游戏的排行榜页面上排名。

资源语言生产者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据对社会的影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集创建者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@article{hossain2019president, title={" President Vows to Cut< Taxes> Hair": Dataset and Analysis of Creative Text Editing for Humorous Headlines}, author={Hossain, Nabil and Krumm, John and Gamon, Michael}, journal={arXiv preprint arXiv:1906.00274}, year={2019} }

贡献者

感谢 @saradhix 添加了这个数据集。