Facebook等联合推出语言理解基准SuperGLUE,为模型提供更困难的挑战
2019年08月15日 由 bie管我叫啥 发表
440378
0
Facebook AI Research与DeepMind,华盛顿大学和纽约大学合作,推出了SuperGLUE,这是一系列基准测试任务,用于衡量现代高性能语言理解的AI的性能。
SuperGLUE的前提是会话AI的深度学习模型已经达到了上限,需要更大的挑战。它使用BERT作为模型性能基准。
在SuperGLUE之前,纽约大学、华盛顿大学和DeepMind的研究人员于2018年4月为语言理解制定了通用语言理解评估(GLUE)基准。
SuperGLUE旨在使任务比GLUE更复杂,并鼓励构建能够掌握更复杂或细微差别的语言的模型。
GLUE根据NLU系统在九个英语句子理解任务上的表现,为一个模型分配了一个数值分数,比如斯坦福情感树库(SST-2),用于从一组在线电影评论数据中提取情感。
RoBERTa目前在GLUE的数字得分排行榜上排名第一,在9个GLUE任务中有4个具有最先进的性能。
SuperGLUE包含在一系列困难的NLP任务中测试创造性方法的新方法,这些任务侧重于机器学习的许多核心领域的创新,包括样本高效,转移,多任务和自我监督学习。
为了挑战研究人员,团队选择了各种格式的任务,有更细微的问题,尚未使用最先进的方法解决,并且很容易被人们解决。
新基准包括八项任务,用于测试系统遵循原因,识别因果关系,或在阅读短文后回答是或否问题的能力。
SuperGLUE还包含Winogender,一种性别偏见检测工具。SuperGLUE排行榜将在super.gluebenchmark.com在线发布。
论文中写道,“目前的问答系统主要关注琐事类型的问题,例如水母是否有大脑。这个新的挑战更进一步,要求机器详细阐述开放式问题的深入答案,例如水母如何在没有大脑的情况下活动?”
为了帮助研究人员创建强大的语言理解AI,纽约大学今天还发布了通用文本理解工具包Jiant的更新版本。
官网:
super.gluebenchmark.com
论文:
arxiv.org/abs/1905.00537