谷歌全新机器学习架构,轻松改变句子的情绪,复杂性和时态
2018年12月06日 由 浅浅 发表
319708
0
密歇根大学和谷歌大脑的数据科学家在NeurIPS 2018会议上提交了论文“Content preserving text generation with attribute controls”,描述了一种机器学习架构,它不仅能够生成给定样本的句子,还能在保留其原意的同时,改变原始文本的情绪,复杂性,时态甚至声音。
这种技术可能在未来会用于复述,机器翻译和会话系统。它可以作为11月微软研究所展示的系统的补充,后者利用复杂的自然语言处理技术推理弱结构化文本中的关系。
研究人员表示,“在这项工作中,我们解决了修改句子文本属性的问题,据我们所知,我们演示了第一个如何在没有并行数据的情况下,学习修改给定句子的多个文本属性的实例。”
改变句子的情绪
该团队首先解决了情绪控制问题。他们采用了餐馆评论
数据集(Yelp评论数据集的过滤版本),以及大量的IMDB电影评论,分别为447,000和300,000个句子,用于训练系统。
在训练之后,研究人员分别使用128,000个餐厅评论和36,000个电影评论的测试数据集,尝试从具有负面情绪的句子中生成具有正面情绪的文本片段,以及生成从负面到正面的片段。
之后,利用机器翻译文本的标准指标——双语评估替代(BLEU)来进行评估,它的性能优于两种最先进的文本生成方法。而且,它始终能生成与输入句子相关且语法正确的句子,以至于Amazon’s Mechanical Turk上的研究参与者认为它比之前的方法的输出更真实。
生成的句子相当连贯。例如,“柜台后面的人不友好”变成了“柜台上的人非常友好热心。”反例:“这是这部电影另一个有趣的地方”到“这部电影没有可取之处。”
更令人印象深刻的是,另一项测试中的研究人员使用该系统同时控制句子的多种属性,包括情绪,时态,声音和观点。在对多伦多BookCorpus数据集的200万个文本片段的数据集进行训练之后,该模型能够将未来时态中的指示性情绪,如“John将无法在营地里生存”中转化为条件时态中的虚拟语气“John不能住在营地里”。
AI系统可以同时调整多个属性
研究人员表示,“我们证明了模型通过各种实验和指标有效地反映了条件信息,虽然以前的研究主要围绕控制单个属性并在两种样式之间进行转换,但模型很容易扩展到多属性场景。未来我们可能会在此框架中考虑具有连续值的属性,以及更多的语义和句法属性集。”
论文:
papers.nips.cc/paper/7757-content-preserving-text-generation-with-attribute-controls.pdf