OpenAI通过捉迷藏游戏训练人工智能

2019年09月18日由 KING 发表 515116 0

你一定想不到历史悠久的捉迷藏游戏可以揭示很多关于人工智能的信息。比如它在面临选择的时候是如何权衡利弊的？它是如何与附近的其它人工智能进行交互的？最近OpenAI的研究人员发表了一篇论文，得到了Linkedln创始人里德霍夫曼（reid hoffman）和其他知名人士的大力赞扬。

论文描述了一大群人工智能控制的特工是如何在虚拟环境中学会隐藏和寻找对方的技巧的。测试结果显示，它们在捉迷藏游戏中表现的很出色，这表明可以利用现有的技术提高人工智能效率。

训练和比赛

人工智能的隐藏与寻找依赖于强化学习（reinforcementslearning），这是一种利用奖励来推动软件朝着目标前进的策略，可以在反复的试验中自我学习。近年来，强化学习与大规模计算相结合取得了巨大的成功，但也有其局限性。指定奖励功能可能会耗费大量的时间和成本。另外强化任务的学习技能受到任务描述的限制，一旦学会解决某一类型的任务，就没有太大的改进空间。

相反，研究人员奉行一种他们称之为“无方向探索”的策略，即特工们在对游戏世界的理解中自由进化，设计出创造性的制胜策略。这类似于DeepMind科学家去年倡导的多智能体学习方法。这种学习策略已有先例：微软的suphx-ai，OpenAI的openai-five，DeepMind的alphastar，以及Facebook的pluribus分别采用了类似的策略来掌握麻将，dota 2，星际争霸2和德州扑克。

基准稳定性

为了评估系统的稳定性，研究人员设计了五个基准智力测试题，分为两个领域：认知和记忆。所有测试都使用相同的操作空间。

对象计数任务测量是否具有持久性（它们是否知道暂时无法感知的事物仍然存在）。

锁定和返回，测试人工智能特工是否可以在执行新任务时记住其原始位置。

在顺序锁定中，四个盒子位于三个随机房间，没有门，但每个房间都有一个坡道。特工必须按照之前未观察到的特定顺序锁定所有房间。

在“从蓝图构建”任务中，特工必须在八个目标站点的顶部放置标记物。

在掩体建设任务中，特工必须在自身周围建造一个箱子来隐藏自己。

未来的工作

研究人员在论文中写道：“这些进步不仅仅是推动游戏设计，他们今后可能是物理基础和人类相关行为相关技术的重要组成部分，并且可能支持诊断疾病，预测复杂蛋白质结构和分割CT扫描的系统。我们的游戏人工智能只是我们通向其它领域的阶梯。”

标签：

行业人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇所以，能动手就别吵吵了

下一篇人工智能对放射工作流程的益处

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）