微软的AI技术可将你描述的内容绘制成图像,小白也能画出蒙娜丽莎
2018年01月19日 由 yining 发表
481387
0
谷歌可能教会了人工智能如何涂鸦,但对计算机来说,绘制更复杂的东西是很困难的。想象一下,让电脑画一只“黑翅膀和短喙的黄鸟”;这听起来有点棘手。不过,微软的研究人员一直在开发一种基于人工智能的技术来实现这一目标。根据该团队最近发布的一篇论文,它生成的图像来自文本描述,其准确程度令人吃惊。与之前最先进的文本转换成图像的技术相比,图像质量上产生了近三倍的提升。
研究人员简单地将这种技术称为“绘图机器人”,它可以生成各种图像,从普通的田园场景,如放牧,到荒谬的,如漂浮的双层巴士。每个图像都包含了文本描述中没有的细节,这表明人工智能包含了人工想象。系统并没有根据你的输入找到一个已有的图像,而是创建了真正的绘图。“如果你去百度里搜索“鸟”的关键字,你就会得到一幅鸟的照片。”但在这项技术中,这些照片是由电脑创建的,从头开始, 一个像素接着一个像素。”何晓东说道,他是微软实验室的深度学习技术中心的首席研究员和研究经理。“这些鸟可能不存在于现实世界中——它们只是我们电脑想象中的鸟类的一个样子。”
绘图机器人解决了计算机视觉和自然语言处理的交叉点难题,这是何晓东和他的同事在过去的5年里主要探索的。他们开始使用自动写入图片说明的技术——CaptionBot,随后他们开始研究一种可以回答人们询问关于图像的问题的技术,比如物体的位置或属性,这对盲人特别有帮助。
这些研究工作需要训练机器学习模型来识别物体、解释动作和用自然语言进行交谈。“现在我们想用文本来生成图像。”,微软的研究员黄秋元说道。“所以,这是一个循环。”
张鹏川是团队的一名助理研究员,他认为图像生成是一项更具挑战性的任务,因为这一过程需要绘图机器人来想象在图片说明中没有包含的细节。他说:“这意味着你需要你的机器学习算法来运行你的人工智能来想象图像中缺失的部分。”
图像生成
微软绘图机器人的核心是一种被称为“生成对抗网络(GAN)”的技术。该网络由两个机器学习模型组成,一个从文本描述生成图像,另一个被称为鉴别器,它使用文本描述来判断生成图像的真实性。生成器试图通过鉴别器来获取假图片;鉴别器从不希望被愚弄,所以在一起工作时,鉴别器将生成器推向完美。
微软的绘图机器人被训练在包含配对图像和说明的数据集上,这使得模型能够学习如何将单词与这些单词的视觉表现相匹配。例如,当说明描绘“鸟”的时候,它学会了生成鸟的图像,同样地,它也学会了鸟的图片应该是什么样子。
当从简单的文本描述中生成图像时,比如蓝色的鸟或常青树,生成对抗网络的工作表现很好,但质量却在那些具有复杂描述的文本上停滞不前,例如“一只绿冠带有黄色翅膀和红腹的鸟”。这是因为整句话都是对生成器的一个输入。描述的详细信息丢失了。其结果是,生成的图像是一种模糊的绿色-黄红色的鸟,而无法与描述的内容紧密匹配。
当我们画图的时候,我们会反复地参考文本,并密切注意描述我们所画图像区域的文字。为了捕捉人类的这一特质,研究人员创造了一种他们称之为“ attentional GAN或AttnGAN”的东西,即“注意力生成对抗网络”。注意力生成对抗网络在数学上代表人类注意力的概念。它通过将输入文本分解为单个单词,并将这些单词与图像的特定区域相匹配来完成这一工作。
“注意力是一个人的概念;我们用数学来计算,”何晓东解释道。
该模型还能从训练数据中了解到人们所说的常识,并将这个学术上的概念引入到想象的细节中去。
“从数据中,机器学习算法学习了关于这种鸟的常识,”张鹏川说道。作为一项测试,研究小组对用绘画机器人馈送了一些荒谬的图片的说明,比如“一辆红色的双层巴士漂浮在湖面上。”它产生了一种模糊的的形象:一艘有两层甲板的船和一辆双层巴士, 漂浮在一个被群山环绕的湖上。
张鹏川解释说:“我们可以控制我们所描述的东西,看看机器是如何反应的。我们可以对机器学习的东西进行测试。这台机器有一些背景知识,但它仍然可以按照你的要求去做,也许有时候,它看起来有点可笑。”
实际应用
从文本到图像的生成技术可以转移到实际应用中,充当画家和室内设计师的草图助手,或者作为语音激活照片优化的工具。当有了更多的计算能力之后,张鹏川认为这项技术可以基于电影剧本来制作动画电影,从而减少一部分人力。
但目前,这项技术还不完善。仔细检查图像几乎总是会发现一些瑕疵,这些缺陷清楚地表明,这只是台计算机在创造图像,而不是人类。
然而,据何晓东所说,注意力生成对抗网络的图像质量比一流的“生成对抗网络”高了近三倍。“人工智能和人类生活在同一个世界里,他们必须有一种相互交流的方式,”他解释说。“语言和视觉是人类和机器相互交流的两种最重要的方式。”