百度推出自然语言模型ERNIE,在某些中文NLP任务中性能优于BERT

2019年03月21日 由 明知不问 发表 166410 0
百度在自然语言处理研究方面投入了大量资金。在之前其他工作的基础上,百度详细介绍了ERNIE(通过kNowledge IntEgration实现增强型表示),这是一种基于PaddlePaddle深度学习平台的自然语言模型。

该公司声称它在一系列语言处理任务上实现了高精度,包括自然语言推理,语义相似性,命名实体识别,情感分析和问答配对,而且它在中文理解方面是最先进的。在上述所有中文语言理解任务中,ERNIE优于谷歌的BERT。

“近年来,无人监督的预训练语言模型在各种NLP任务上取得了很大进展,”百度在一篇博文中解释说,“但该领域的早期工作主要集中在与上下文无关的单词嵌入。这些模型主要关注原始语言信号,而不是文本中的语义单元。我们认为,如果模型能够从文本中学习隐含知识,那么它在各种任务上的表现将会进一步提高。”

为此,基于字符的ERNIE通过摄取包含部分掩盖词的段落来学习概念的语义表示。这是一种多功能的方法,与依赖于词级建模来消除词性之间关系的系统不同,ERNIE能够理解连续字符的组成意义,如“红色,蓝色,绿色”。

此外,ERNIE使用对话语言模型来处理问答情景,并用一种对话响应丢失的技术。从本质上讲,它需要两个相邻对,两个发言者,两个发言者,一个接着一个,并在数学上对它们进行编码,以确定说话者的角色,并在交流中学习隐含的关系。



为了验证ERNIE的设计,研究人员用在线百科全书文章,新闻剪报和论坛帖子,并让它推断出样本段落中省略的知识。

它正确地填写了一些问题,如“相对论是关于时空和引力的理论,这是由_________建立的”(ERNIE的回答:“爱因斯坦”);“地球表面积为5.1亿平方公里,其中71%是________,29%是土地”(ERNIE的回答:“海洋”)。更令人印象深刻的是,在Facebook和纽约大学研究人员(XNLI)设计的基准测试中,它对于中国数据的表现优于谷歌的BERT。

百度表示,它计划将ERNIE与各种产品整合在一起。一个可能的受益者是DuerOS,一套软件开发工具包(SDK),API解决方案,使原始设备制造商能够将百度的语音平台构建到智能扬声器,冰箱,洗衣机,机顶盒中。迄今为止,已有200多家公司推出了110款DuerOS产品,百度于11月宣布DuerOS已安装在超过1.5亿台设备上,每月活跃用户超过3500万。

源代码和预训练模型可在Github上获得:
github.com/PaddlePaddle/LARK/tree/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消