数据集:
humicroedit
许可:
license:unknown源数据集:
original语言创建人:
crowdsourced大小:
10K<n<100K计算机处理:
monolingual语言:
en子任务:
text-scoring任务:
文本分类这是 SemEval-2020 任务7的任务数据集:评估编辑后新闻标题的幽默程度。
英语
对于子任务-1,即给定原始标题和编辑后标题,预测编辑后标题的平均幽默程度。
{ 'id': 1183, 'original': 'Kushner to visit <Mexico/> following latest trump tirades.', 'edit': 'therapist', 'grades': '33332', 'meanGrade': 2.8 }
对于子任务-2,即给定原始标题和两个编辑版本,预测哪个编辑版本更有趣。
{ 'id': 1183, 'original1': 'Gene Cernan , Last <Astronaut/> on the Moon , Dies at 82', 'edit1': 'Dancer', 'grades1': '1113', 'meanGrade1': 1.2, 'original2': 'Gene Cernan , Last Astronaut on the Moon , <Dies/> at 82', 'edit2': 'impregnated', 'grades2': '30001', 'meanGrade2': 0.8, 'label': 1 }
对于子任务-1
对于子任务-2
Sub Task | Train | Dev | Test | Funlines |
---|---|---|---|---|
Subtask-1:Regression | 9652 | 2419 | 3024 | 8248 |
Subtask-2: Funnier headline prediction | 9381 | 2355 | 2960 | 1958 |
[需要更多信息]
通过将其设计成游戏,通过funlines.co网站进行了众包数据收集。玩家在0-4的范围内对标题进行评级。根据他们的编辑和评分给玩家评分,并在游戏的排行榜页面上排名。
资源语言生产者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@article{hossain2019president, title={" President Vows to Cut< Taxes> Hair": Dataset and Analysis of Creative Text Editing for Humorous Headlines}, author={Hossain, Nabil and Krumm, John and Gamon, Michael}, journal={arXiv preprint arXiv:1906.00274}, year={2019} }
感谢 @saradhix 添加了这个数据集。