自然语言处理的黄金时代
2019年12月21日 由 KING 发表
879115
0
自然语言处理(NLP)已有数十年的历史,但是它缺乏一般的现实世界智能。机器可能擅长数学,但是很难将涉及语音和文本的语言问题转换为他最擅长的数学公式。然而,根据NLP技术的最新突破,NLP迎来了新的“黄金时代”,到2025年,总收入预计将超过220亿美元。NLP技术在当前的时代取得的第一个突破是在2013年推出了Word2Vec算法,该算法可自动读取庞大的文本数据集,并了解该数据集内所有单词之间的关联和关系模式。Word2Vec并不是尝试“理解”文本,而是在单词嵌入之间寻找关联。然后,Word2Vec将此信息压缩到较小的维度,以创建学习词汇的紧凑编码。这种压缩迫使单个单词相关性形成表达单词关系的逻辑模式。结果是每个单词的数学矢量,表达了该单词与压缩模式的关系。这些向量可用于为各种NLP任务(例如机器翻译,问题解答和情感分析)提供高度准确的结果。Word2Vec有其弱点,例如,它只能存储具有多种不同含义的单词“ pit”或“ bat”的单一表示形式。但是,它在NLP准确性方面提供了巨大的飞跃。
NLP的下一个进步是2018年初的ELMo(语言模型的嵌入)。与Word2Vec不同,Word2Vec为每个单词使用固定的向量,而ELMo会考虑周围的句子或段落来计算单个单词的向量。然后,ELMo使用深度学习以及多个隐藏层来帮助捕获单词相关性。这使ELMo可以在不同的层次上学习不同级别的语言表示。例如,较早的一层可能专注于原始信息,例如将名词与动词区分开,而较下一层可能关注于更高级别的信息,例如将“ Janine”与“ Jamie”区分开。结果,ELMo在很大程度上胜过Word2Vec各种NLP任务。2018年下半年,随着BERT的发布,NLP取得了更大的突破。BERT是基于注意力机制的,它首先观察到人类通过关注重要细节并消除噪音来处理信息。然后,凭直觉,在机器翻译之类的NLP问题中,给定相关句子的训练语料库(例如,将源文本翻译成另一种语言),注意力机制可以学习源句子中位置最相关的一组信息集中。
NLP研究人员能够通过使用多个注意力分布来极大地提高注意力机制的性能,从而创建了一种称为Transformer的算法。BERT通过引入“屏蔽语言建模”使Transformer迈出了关键性的一步,其中句子中15%的单词被随机屏蔽。然后,使用一个Transformer基于围绕它的未屏蔽字(左右两边)为每个屏蔽字生成预测。BERT似乎只是对Transformer的一个细微调整,而Transformer本身就是对注意力机制的细微调整。这些小的调整可以极大地提高NLP输出的质量。目前,BERT是NLP研究领域的宠儿,它为某些NLP任务(如问题解答)提供了超过人类水平准确性的结果。但是,NLP可能不会长期保持这种状态。这是一个无所畏惧的预测:在一年之内,我们会忘记BERT而取而代之的是名为ERNIE的更好算法。尽管名称可能最终会错误,但原则仍然是:我们正处于NLP时代的曙光,那里正在以似乎每月的方式发现更好的算法,而且还看不到尽头。这些算法中的许多不仅作为研究论文,而且作为几乎可以立即用于商业NLP产品的开源代码向公众发布。
作为消费者,您可能已经注意到计算机理解人类语音能力的巨大飞跃。从Alexa或Siri每天早上用当天的待办事项唤醒我们,到聊天机器人接听我们的客户服务电话,我们越来越多地被NLP机器包围。借助现在可以更有效地聚合数据并从中获取可行见解的技术,那些不希望使用NLP的组织将发现自己处于劣势并被抛在后面。