AI引导单镜头无人机穿越陌生的弯道走廊
2019年02月13日 由 童童 发表
279394
0
深度强化学习是一种通过使用奖励来推动代理实现目标的算法训练技术。在基于视觉的导航领域中显示出巨大的潜力。科罗拉多大学的研究人员最近展示了一个系统,可以帮助机器人从相机镜头中找到行走路径的方向,苏黎世联邦理工学院的科学家们在1月份发表的一篇论文中描述了一种机器学习框架,它有助于四足机器人被绊倒时从地面爬起来。
但是如果将这种AI应用于无人机,那么它的表现是否会同样熟练?加州大学伯克利分校的一个研究小组开始寻找答案。
在Arxiv预印本服务器上出版的最新一期论文(《通过模拟泛化:将模拟和实际数据集成到深强化学习应用自主飞行》,该团队提出了一个“混合”深强化学习算法,是通过引导四轴飞行器在铺有地毯的走廊并结合数字模拟和现实世界的两种数据。
论文作者表示,在这项工作中他们大体是设计一种学习无人机物理行为的转移学习算法。本质上,真实世界的经验是用来学习如何飞行的,而模拟的经验是用来学习如何推广的。”
为什么使用模拟数据呢?正如研究人员指出,泛化程度取决于数据集的大小和多样性。一般来说,数据的数量和多样性越大,性能就越好,并且获取实际数据既耗时又昂贵。但是模拟数据存在一个问题,而且是一个很大的问题:相对于飞行数据,模拟数据的质量本质上较低且复杂的物理和气流通常很差,或者根本就没有关于这些的模拟建设。
研究人员的解决方案是利用现实世界的数据来训练该系统的动力学,利用模拟数据来学习一种可推广的感知策略。他们的机器学习体系结构由两部分组成:一个从模拟中传输视觉特征的感知子系统,另一个用真实数据进行反馈的控制子系统。
为了训练模拟策划,该研究小组使用了斯坦福大学的Gibson模拟器,该模拟器包含多种3D扫描环境(研究人员收集了16种环境中的数据),并使用摄像机模拟了一个虚拟四轴飞行器,其动作直接控制摄像机的姿态。他们拥有1700万个模拟收集的数据点,当所有准备就绪后,通过在加州大学伯克利分校科里大厅5楼的一个走廊上运行模拟训练的策划,他们结合了14000个数据点。
通过一个小时的实际数据,该研究小组就证明了AI系统可以引导27克的四轴飞行器Crazyflie 2.0在陌生并具有照明和几何形状的全新环境中飞行,并帮助它避免碰撞。指引它在真实世界中运行的唯一窗口是一架单眼照相机;它通过一个无线到USB的加密狗(dongle)与附近的一台笔记本电脑通讯。
研究人员注意到,接受过避碰和导航训练的模型比使用其他方法(如无监督学习和大型图像识别项目的训练技术)表现的更好。此外,当AI系统确认出现失误时,通常认为也是“合理”的。例如,在30%的弯曲走廊试验中,四轴飞行器撞上了一扇玻璃门。
论文作者写道:“我们工作的主要贡献是将大量的模拟数据与少量的现实经验结合起来,以便通过强化学习来训练具有自主飞行的现实避碰策略。”“我们方法的基本原理是了解真实世界中这种飞行器的物理特性和动力学,同时从模拟中学习视觉不变性和模式。”