OpenAI开发AI训练环境CoinRun,增强智能体经验的通用性
2018年12月07日 由 浅浅 发表
753519
0
强化学习有一个常见的问题:它不会实现可广泛通用的模型,受过训练的智能体很难将它们的经验转移到新环境中。这是一个众所周知的挑战,但它并没有阻止数据科学家在其接受训练的环境中对系统进行基准测试。这会导致过度拟合难以量化。
OpenAI正在开发
AI训练环境CoinRun来解决这个问题,该训练环境为智能体将其体验转移到不熟悉的场景的能力提供了一个指标。它就如同一个经典的平台游戏,包含了敌人,目标和不同难度的关卡。之前OpenAI推出过Spinning Up,一个旨在教授任何深度强化学习的程序。
OpenAI团队表示,“CoinRun在复杂性方面取得了理想的平衡:环境比传统平台游戏Sonic the Hedgehog简单得多,但它仍然对最先进的算法提出了一个挑战,CoinRun的级别是程序生成的,为智能体提供了大量且易于量化的训练数据。”
正如OpenAI所解释的那样,强化学习环境中的先前工作主要集中在程序生成的迷宫,社区项目,如通用视频游戏AI框架,以及像Sonic the Hedgehog这样的游戏,通过训练和测试智能体在不同级别上进行测量。相比之下,CoinRun在每个级别结束时为智能体提供单一奖励。
AI智能体必须应对固定和移动的障碍,碰撞会导致死亡。当收集足够的硬币或完成1000个时间步后,游戏结束。
OpenAI还开发了两个额外的环境来检验过度拟合:CoinRun-Platforms和RandomMazes。第一个包含随机分散在平台上的几个硬币,迫使智能体积极探索关卡并偶尔做一些回溯。而RandomMazes是一个简单的迷宫导航任务。
为了验证CoinRun,CoinRun-Platforms和RandomMazes,OpenAI训练了9个智能体,每个具有不同数量的训练级别。前8名接受了100到16000个级别的训练,最后一名接受了不受限制的200万个级别的训练,这样就不会两次看到相同的级别。
智能体经历了4000个训练级别的过度装配,甚至达到16000个训练级别,而表现最佳的智能体是那些进行无限制级别训练的。在CoinRun-Platforms和RandomMazes中,智能体在所有情况下都出现了过度拟合。
OpenAI表示,这些结果为加强学习中通用化挑战提供了有价值的见解。“使用程序生成的CoinRun环境,我们可以准确地量化这种过度拟合,通过此指标,可以更好地评估关键架构和算法决策。我们相信从这种环境中汲取的经验教训将适用于更复杂的环境,我们希望广泛利用这一基准,以及其他类似的基准来迭代更具普遍性的智能体。”