如何教人工智能模仿人类的思想和行动
2023年07月04日 由 Susan 发表
64686
0
人工智能系统可以在某些方面模仿人类智能,取得令人印象深刻的成果,包括检测物体、导航环境、下棋,甚至生成文本。但是,克隆人类行为也存在其局限性。如果没有将行动与思考相结合,当面对新颖情况时,人工智能系统可能变得脆弱,并且在决策时会出现不可预测的错误。
不久前,不列颠哥伦比亚大学和Vector研究所的科学家进行的一个项目展示了让人工智能系统像人类一样思考的好处。他们提出了一种名为"思考克隆"的技术,该技术同时训练人工智能系统的思考和行为。
思考克隆可以使深度学习模型为其行为生成一种推理过程,并将这种推理传达给人类操作员。"思考克隆"有许多好处,包括训练效率提高、故障排除和错误修复,以及防止有害行为的发生。
行为克隆与思想克隆
许多深度学习系统是通过使用人类生成的数据进行训练的。例如,训练数据可以是一场国际象棋比赛中的棋盘移动,或者是一个策略游戏中的行动序列。它还可以是现实世界中的行动,例如在仓库中完成任务。通过在足够大的数据集上进行训练,人工智能代理就能够在该任务上创建出一个关于人类行为的模型。
虽然该模型可以学习模仿人类行为并在许多任务中达到相同的结果,但并不一定会学习到这些行为背后的推理过程。缺乏思考过程,人工智能代理将无法将所学习的行为推广到新的环境中。因此,它需要一个包含所有可能场景的更大的训练数据集。即使如此,在面对未知的边缘情况时,它仍然可能表现出不可预测的行为。
思考克隆的假设是,如果将模型训练在行为和相应的思考之间的联系上,那么模型将学会正确地将行为与目标进行关联,并能够生成和传达其行为背后的推理过程。
为了实现机器学习模型中的思考克隆,您在训练期间向模型提供多个信息流。其中之一是行为观察,比如在游戏中玩家正在执行的移动。另一个是思考流,比如行为背后的解释。例如,在实时策略游戏中,人工智能观察到玩家将几个单位移动到桥前,并同时接收到一段文字解释,例如“阻止敌军过桥”。
这种方法有几个优点。首先,人工智能代理将学习更快,因为它们需要更少的示例来弄清楚为什么某个特定的行动很重要。其次,它们将表现得更好,因为它们能够将相同的推理应用于未知情况。第三,它们通过表达每个行动背后的推理来提高安全性。例如,如果人工智能代理追求正确的目标,但打算采取不安全的行动,例如为了准时到达目的地闯红灯,那么在造成损害之前可以阻止它。同样,如果人工智能代理出于错误的原因采取了正确的行动,可以将其引导到正确的方向上。
教人工智能模仿人类思维
研究人员提出了一个由两个部分组成的深度学习架构,旨在完成一项任务。"上部组件"处理思考流和环境观测流,并尝试预测下一个有助于模型实现目标的思考。"下部组件"接收环境观测流和上部组件的输出,并尝试预测正确的行动。
模型重复这个过程,并使用每个阶段的结果作为下一个阶段的输入。在训练期间,模型可以使用由人类生成的思考和行动序列。它将此信息作为基本事实,调整其参数并尽量减小思考和行动预测的误差。经过训练的模型应该能够针对未知任务生成正确的思考和行动序列。
模型使用Transformer、长短期记忆(LSTM)网络和视觉语言模型来处理文本指令和视觉数据,将它们融合在一起,并跟踪多个步骤之间的嵌入。研究人员在GitHub上发布了他们的研究结果,包括模型权重、模型训练代码以及生成训练和测试数据的代码。这是一个让人希望的发展,因为在人工智能实验室分享越来越少并保持模型细节保密的背景下,研究人员将他们的结果开放共享。
在他们的实验中,作者使用了BabyAI,这是一个网格世界平台,人工智能代理必须完成不同的任务。代理可以执行各种动作,如拾取物品、打开门和穿越房间。BabyAI平台的优势在于它可以以程序方式生成世界、任务、解决方案和解释,以训练人工智能系统。研究人员创建了一个包含一百万个情景的数据集,用于训练他们的思考克隆模型。
为了测试他们的技术,研究人员创建了两个不同的模型。第一个模型进行了纯行为克隆的训练,意味着它只接收环境观测流。第二个模型进行了思考克隆的训练,除了环境数据外,它还接收了一个关于每个移动背后推理的纯文本解释流。
结果显示,思考克隆明显优于行为克隆,并且由于需要更少的训练实例来推广到未见过的示例,它收敛得更快。他们的实验还表明,在分布外(OOD)的示例与模型的训练示例非常不同的任务中,思考克隆也优于行为克隆。
思考克隆还使研究人员更好地理解了人工智能代理的行为,因为对于每一步,它会用自然语言产生其规划和推理。事实上,这个可解释性特征使研究人员能够调查模型在训练过程中的一些早期错误,并快速调整他们的训练方案以引导其朝正确的方向发展。
就安全性而言,研究人员开发了一种称为“Precrime Intervention”的技术,通过检查模型的思考流来自动检测和阻止风险行为。他们观察到,在他们的实验环境中,“Precrime Intervention几乎完全消除了所有不安全的行为,从而展示了思考克隆代理在推动人工智能安全性方面的有希望潜力。”
将思想克隆应用于现实世界的人工智能
思考克隆是人工智能研究和开发中一个有趣且充满前景的方向。它适用于其他旨在创建具有体现和多模态特性的深度学习模型的活动,例如谷歌的PaLM-E和DeepMind的Gato。人类智能之所以比当前的人工智能更加强大,部分原因在于我们具备同时吸收和处理不同模态信息的能力。实验证明,多模态人工智能系统更加强健和高效。
然而,思考克隆也面临挑战。首先,BabyAI环境简单且确定性高,使得深度学习模型更容易学会其微妙和复杂之处。真实世界更加复杂、难以预测且杂乱无章。
该方法的另一个挑战是创建训练数据。人们在执行任务时并不一定会详细解释每个动作。我们共享的知识和相似的生物学特征消除了明确表达每个意图的需求。作者提出的解决方案可能是使用YouTube视频,其中人们在执行任务时会解释过程。然而,即便是这种情况,人类行为中存在着无法用简单文本解释的隐含原因。
对于思考克隆在互联网规模数据和复杂问题上的表现,仍有待观察。但正如论文的作者所述,这为“人工通用智能、人工智能安全性和可解释性的科学研究开辟了新的道路”。
来源:https://bdtechtalks.com/2023/07/03/ai-thought-cloning/