Google的PAWS数据集可帮助AI模型捕获单词顺序和结构

2019年10月09日由 KING 发表 78876 0

自然语言处理（NLP）（用于处理机器阅读理解的AI子领域）无法解决语音识别领域的所有问题，这是因为语法上的细微差别会极大地影响句子的含义。

Google认为，更大的数据多样性是解决NLP难题的关键之一，为此，它今天发布了一个新的语料库：英语单词扰乱（PAWS）。除了PAWS之外，它还提供了PAWS-X扩展，包括六种在类型上截然不同的语言：法语、西班牙语、德语、汉语、日语和韩语。这两个数据集都包含格式正确的复述和非复述对。Google表示，这可以将捕获单词顺序和结构的算法准确性从不足50％提高到85％至89％之间。

PAWS数据集包含108463个英语对的人类标签对，这些对源于Quora问题对（QQP）和Wikipedia页面。对于PAWS-X，它包括23659个人工翻译的PAWS评估对和296406个机器翻译的训练对。Google研究科学家Yuan Zhang和软件工程师Yang Yinfei在博客中写道：“即使机器学习模型具有理解复杂上下文措辞的能力，也很难学习某些模式。新的数据集为测量模型对顺序和结构的敏感性提供了有效的工具。”

PAWS引入了一种工作流程，用于生成共享多个单词的句子对。首先创建新的示例，短语会通过一个模型，该模型会创建可能是或不是释义对的变体。然后，由个人评估者对它们的语法进行判断，最后由一个团队确定它们是否相互解释。为了避免产生非释义的对，基于回译（将翻译后的文本翻译回原始文本的语言）添加了示例，这有助于在引入可变性的同时保留含义。

PAWS-X需要雇用人工翻译来翻译开发和测试数据集。机器学习模型翻译了训练集，人类针对每种前述语言对随机样本对执行了成千上万次翻译。一个子集由第二个工作人员验证，从而导致最终的语料库的单词级错误率小于5％。为了评估语料库对NLP准确性的影响，研究人员在其上训练了多种模型并测量了分类准确性。与基线相比，BERT和DIIN这两种模型有着显著的进步，BERT的准确性从33.5％提高到83.1％。

Zhang和Yang写道：“我们希望这些数据集将对研究界有用，以推动多语言模型的进一步发展，从而更好地利用结构，上下文和成对比较。”

标签：

行业谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 AI智能认知搜索提高企业内部工作效率

下一篇美国将中国的AI企业列入黑名单

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）