Facebook等联合推出语言理解基准SuperGLUE，为模型提供更困难的挑战

2019年08月15日由 bie管我叫啥发表 440540 0

Facebook AI Research与DeepMind，华盛顿大学和纽约大学合作，推出了SuperGLUE，这是一系列基准测试任务，用于衡量现代高性能语言理解的AI的性能。

SuperGLUE的前提是会话AI的深度学习模型已经达到了上限，需要更大的挑战。它使用BERT作为模型性能基准。

在SuperGLUE之前，纽约大学、华盛顿大学和DeepMind的研究人员于2018年4月为语言理解制定了通用语言理解评估（GLUE）基准。

SuperGLUE旨在使任务比GLUE更复杂，并鼓励构建能够掌握更复杂或细微差别的语言的模型。

GLUE根据NLU系统在九个英语句子理解任务上的表现，为一个模型分配了一个数值分数，比如斯坦福情感树库（SST-2），用于从一组在线电影评论数据中提取情感。

RoBERTa目前在GLUE的数字得分排行榜上排名第一，在9个GLUE任务中有4个具有最先进的性能。

SuperGLUE包含在一系列困难的NLP任务中测试创造性方法的新方法，这些任务侧重于机器学习的许多核心领域的创新，包括样本高效，转移，多任务和自我监督学习。

为了挑战研究人员，团队选择了各种格式的任务，有更细微的问题，尚未使用最先进的方法解决，并且很容易被人们解决。

新基准包括八项任务，用于测试系统遵循原因，识别因果关系，或在阅读短文后回答是或否问题的能力。

SuperGLUE还包含Winogender，一种性别偏见检测工具。SuperGLUE排行榜将在super.gluebenchmark.com在线发布。

论文中写道，“目前的问答系统主要关注琐事类型的问题，例如水母是否有大脑。这个新的挑战更进一步，要求机器详细阐述开放式问题的深入答案，例如水母如何在没有大脑的情况下活动？”

为了帮助研究人员创建强大的语言理解AI，纽约大学今天还发布了通用文本理解工具包Jiant的更新版本。

官网：

super.gluebenchmark.com

论文：

arxiv.org/abs/1905.00537

标签：

行业 SuperGLUE

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇机器学习模拟数字动物以测试药物，减轻动物痛苦并加速药物开发进程

下一篇 Talla：如何在支持工作流中为人工智能提供机会

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）