Deepmind:让AI学会在没有地图的城市中导航
2018年04月06日 由 yuxiangyu 发表
426397
0
在你童年时你是如何学会去朋友家、学校或者小卖部的?也许你不需要地图,只是简单地记住沿途街道的外观和转弯处就行。随着你逐渐探索周边的街区,你变得更加自信,掌握了自己的位置,并学习了新的、更加复杂的路。你也许会短暂地迷路,但当你看到地标就会再次找回去,或者甚至通过太阳找到方向。
导航是重要的认知任务,它可以使人类和动物在复杂的世界中无需借助地图,就可实现长途跋涉。这种远程导航可以同时支持自我定位( self-localisation,指自己所在的位置)和目标表述(我要去的地方)。
为了学习在没有地图的城市中进行导航,我们提供了一个交互式导航环境,该环境使用来自Google街景视图的第一人称视角照片,并游戏化该环境以训练AI。作为街景图像的标准,人脸和车牌已经进行了模糊化,无法进行识别。我们建立一个基于神经网络的人工智能体,学习使用视觉信息(来自街景视图图像的像素)在多个城市中导航。请注意,这项研究是关于一般导航而非驾驶,我们没有使用交通信息,也没有尝试对车辆控制进行建模。
我们的智能体在多种环境中进行导航,无需访问环境的地图。
当智能体到达目标目的地(例如,指定为经纬度坐标)时,智能体就会得到奖励,就像一位不需要凭借地图,无限送货的快递员一样。随着时间的推移,智能体学会以这种方式跨越整个城市。我们还证明,我们的智能体可以在多个城市学习这个任务,然后很好地适应一个新的城市。
智能体在巴黎训练的动图。图像与城市地图叠加,目标位置(红色),智能体位置和视野(绿色)。注意,智能体只能看到目标位置的经纬度坐标,看不到地图。
在不建立地图的情况下学会导航
我们没有利用精确绘图和探测的传统方法。我们的方法是让智能体学习像人类一样只使用视觉观察的方式进行导航,而不借助于地图,GPS定位或其他辅助工具。我们构建了一个神经网络智能体,根据从环境中观察到的输入图像,预测它应该在该环境中的下一步行动。我们使用深度强化学习进行端到端的训练,类似于最近的两篇论文(如下)。
论文:https://arxiv.org/pdf/1611.03673
论文:https://arxiv.org/pdf/1611.05397.pdf
与那些在小型模拟迷宫环境下进行的研究不同,我们利用城市的真实世界数据,包括伦敦,巴黎和纽约市的复杂交叉路口,人行道,隧道和各种布局。此外,我们使用的方法支持特定的城市学习和优化以及通用的、可迁移的导航行为。
模块化的神经网络结构,可以迁移到新的城市
我们智能体内部的神经网络由三部分组成:1.可以处理图像和提取视觉特征的卷积网络,2.特定区域的RNN,其隐含任务是记住环境,并学习智能体的当前位置和目标的位置的表示,3.产生智能体行为导航策略的场景不变的RNN。特定区域的模块被设计为可替换,并且如其名称所示,对于智能体导航的每个城市都是唯一的,而视觉模块和策略模块可以是区域不变的。
CityNav架构(a),MultiCityNav架构和每个城市的特定区域(b)以及当智能体适应新城市时的训练和转移过程的图解(c)。
就像在Google街景界面中一样,智能体可以在适当的位置转弯,或者在可能的情况下前进到下一个全景。与谷歌地图和街景环境不同的是,智能体不会看到小箭头,本地或全局地图,或着名的Pegman,它需要学会区分开放道路和人行道。目标目的地可能在现实世界中距离数公里,并且需要智能体穿过数百个全景图才能到达它们。
我们证明了,我们提出的这种方法可以提供一种将知识迁移到新城市的机制。与人类一样,当我们的智能体访问一个新的城市时,我们会期望它必须学习一组新的地标,但不必重新学习它的视觉表现或其行为(例如,沿着街道前进点或在十字路口转弯)。因此,使用MultiCity架构,我们首先在许多城市进行迅雷,然后冻结策略网络和视觉卷积网络,并在一个新城市中只建立一个新的特定区域路径。这种方法使智能体能够获得新的知识,并且不会忘记它已经学到的东西,类似于渐进式神经网络(progressive neural networks)架构。
这项研究中使用了曼哈顿的五个区域。
研究导航是研究和开发人工智能的基础,而且尝试在人工智能体中复制导航也可以帮助科学家了解其生物性基础。