Google的PAWS数据集可帮助AI模型捕获单词顺序和结构
2019年10月09日 由 KING 发表
78760
0
自然语言处理(NLP)(用于处理机器阅读理解的AI子领域)无法解决语音识别领域的所有问题,这是因为语法上的细微差别会极大地影响句子的含义。
Google认为,更大的数据多样性是解决NLP难题的关键之一,为此,它今天发布了一个新的语料库:英语单词扰乱(PAWS)。除了PAWS之外,它还提供了PAWS-X扩展,包括六种在类型上截然不同的语言:法语、西班牙语、德语、汉语、日语和韩语。这两个数据集都包含格式正确的复述和非复述对。Google表示,这可以将捕获单词顺序和结构的算法准确性从不足50%提高到85%至89%之间。
PAWS数据集包含108463个英语对的人类标签对,这些对源于Quora问题对(QQP)和Wikipedia页面。对于PAWS-X,它包括23659个人工翻译的PAWS评估对和296406个机器翻译的训练对。Google研究科学家Yuan Zhang和软件工程师Yang Yinfei在博客中写道:“即使机器学习模型具有理解复杂上下文措辞的能力,也很难学习某些模式。新的数据集为测量模型对顺序和结构的敏感性提供了有效的工具。”
PAWS引入了一种工作流程,用于生成共享多个单词的句子对。首先创建新的示例,短语会通过一个模型,该模型会创建可能是或不是释义对的变体。然后,由个人评估者对它们的语法进行判断,最后由一个团队确定它们是否相互解释。为了避免产生非释义的对,基于回译(将翻译后的文本翻译回原始文本的语言)添加了示例,这有助于在引入可变性的同时保留含义。
PAWS-X需要雇用人工翻译来翻译开发和测试数据集。机器学习模型翻译了训练集,人类针对每种前述语言对随机样本对执行了成千上万次翻译。一个子集由第二个工作人员验证,从而导致最终的语料库的单词级错误率小于5%。为了评估语料库对NLP准确性的影响,研究人员在其上训练了多种模型并测量了分类准确性。与基线相比,BERT和DIIN这两种模型有着显著的进步,BERT的准确性从33.5%提高到83.1%。
Zhang和Yang写道:“我们希望这些数据集将对研究界有用,以推动多语言模型的进一步发展,从而更好地利用结构,上下文和成对比较。”