Berkeley用TDM策略制定计划，实现骑行任务

2018年04月28日由浅浅发表 873871 0

如果你打算从UC Berkeley骑行到金门大桥（Golden Gate Bridge），这样骑行20英里也不错，但问题是，你从没骑过自行车！更棘手的是，你初来乍到，对这里还不熟，手里只有一份OL的时尚地图，那么你要怎么做？

首先来解决如何学会骑自行车的问题。其中一个方法是进行大量研究和计划，阅读关于骑行的书籍，研究物理学和解剖学，探索每次动作时你需要做出的不同的肌肉运动，等等。这种方法看似可行，然而骑过自行车的人都知道这种方法只是纸上谈兵。只有一种方法可行，那就是试错。像骑行这样的任务太过复杂，空想计划是不可行的。

一旦你学会了骑行，那么要怎样到达目的地呢？你可以再次利用试错法，随机进行转弯看是否能抵达Golden Gate Bridge，然而这一方法需要花费太多时间。对这样的问题来说，计划则速度更快，不需太多的实际经验和试错。用强化学习的术语来表达就是sample-efficient。

Berkeley用TDM策略制定计划，实现骑行任务

通过试错法学习技巧

其他情况，事先计划好会更好

这个想法虽然简单，但强调了人类智能的一些重要方面。对于某些任务，我们使用试错法，而对于其他任务，我们使用的是计划法。在强化学习（RL）中也出现了类似的现象。用RL的术语来说，就是实证结果表明，一些任务更适合model-free（试错）方法，而另一些则更适合model-based（计划）方法。

然而，用骑行进行类比也强调了这两个系统并不是完全独立的。学习骑行就是试错，这种说法太过夸张。事实上，当你通过试错法来学习骑车时，你也会采取一些计划。也许最初的计划是“不要摔倒”。当你更熟练之后，你会设立更高的目标，比如“向前骑两米不摔倒”。最终，你精通了骑行技巧，然后开始设定抽象的计划（骑到这条路的尽头），这样你只需要不断计划，而无需再拘泥于骑行的细节。这一过程便是从model-free（试错）策略到model-based（计划）策略的逐步过渡。如果我们通过开发人工智能算法，特别是RL算法，来模拟这种行为，那么可能会产生一种算法，既能通过早期使用试误法较好地完成任务，又能在之后转换到计划法来实现更抽象的目标，体现sample efficient。

这篇文章会用到temporal difference model（TDM），是一种RL算法，可以将model-free平稳过渡到model-based RL。在描述TDM之前，我们先来看看典型的基于模型的RL算法是如何工作的。

model-based RL

在强化学习中，存在许多状态空间S和动作空间A。如果时间是t，那么我们所处的状态和采取的动作分别用st∈S和at∈A来表示，根据动态模型f:S×A↦S，我们转换到新的状态就可表示为st+1=f(st,at) 。目标是最大化已有状态总结的回报：∑T−1t=1r(st,a,st+1)。model-based RL算法假设你已得到得到（或学会）动力模型f。根据这一模型，可用各种model-based算法。在这篇文章中，我们执行以下的optimization方法，以选择一系列动作和状态，使回报最大化。

Berkeley用TDM策略制定计划，实现骑行任务

optimization方法选择一系列动作和状态，使回报最大化，同时确保轨迹是可行的。在这里，可行的意思是状态与动作直到下一个状态的转化都有效。例如下面的图片，如果你从状态st和动作at开始，只有最上一列的st+1会使转化可行。

Berkeley用TDM策略制定计划，实现骑行任务

如果你忽略掉物理学，计划骑行到Golden Gate Bridge会更简单些。然而，model-based最优化的问题约束确保仅有的轨迹（如最上一列）可被输出。下面两列轨迹可能会得到高回报，不过都是不可行的。

在我们的自行车问题中，最优化可能会使从Berkeley（右上）到Golden Gate Bridge（中左）的骑行计划看起来如下图：

Berkeley用TDM策略制定计划，实现骑行任务

Optimization问题的计划（状态和动作）输出实例

虽然理念很好，但这个计划并不现实。model-based方法利用模型f(s,a)预测接下来的每一个状态。在机器人学中，时间步长通常对应十分之一秒或百分之一秒。所以一个更现实的计划可能如下图所示：

Berkeley用TDM策略制定计划，实现骑行任务

一个更为现实的计划

如果思考一下我们在日常生活中是如何计划的，就会意识到我们会用更多时间计划抽象术语。我们会制定长期计划如“我要骑到这条路的尽头”，而不是计划在下个十分之一秒具体骑到哪个位置。此外，一旦学会如何骑行，我们就只会做这些抽象的计划。正如上文所讨论的那样，我们需要一些方法，用来(1)通过试错法开展学习，(2)提供一种机制，逐步提高我们用于计划的抽象级别。为了实现这些，我们引进了temporal difference model。

TDM

我们将TDM写作Q(s,a,sg,τ)*，这是一个函数，我们所处的状态和采取给定状态为st∈S，动作为at∈A，目标状态为sg∈S，以此预测智能体如何在τ 长度的时间步长内完成目标。也就是说用TDM来回答“如果我想在30分钟内骑行到San Francisco，我能距离终点多远？”对于机器人学来说，一个测量接近程度的方法就是Euclidean distance。

*我们称它为temporal difference model，因为我们用时间差异学习来训练Q，并使用Q作为模型。

Berkeley用TDM策略制定计划，实现骑行任务

经过固定的时间后，TDM预测你离目的地的距离（Golden Gate Bridge）。骑行30分钟，也许你只能到达上图中灰色自行车的位置。在这种情况下，灰线代表TDM应该预测的距离。

对于那些熟悉强化学习的人来说，在finite-horizon MDP中，TDM可以被视为一个目标已定的Q函数。因为TDM也是Q函数，我们可以用model-free（试错法）算法训练它。我们用deep deterministic policy gradient（DDPG）来训练TDM，并对目标和时间范围进行追溯并重新标记，以提高我们学习算法的sample efficiency。理论上，任何Q-learning算法都可用于训练TDM，不过我们发现这种最有效率。

用TDM制定计划

一旦我们训练了TDM，那我们如何将它用于制定计划？我们可以根据以下的optimization来制定计划：

Berkeley用TDM策略制定计划，实现骑行任务

这类似于model-based的构想。选择一系列使回报最大化且可行的动作和状态。关键差异在于我们只能每k个时间步长计划一次，而不是每个时间步长都计划一次。Q(st,at,st+K,K)=0中存在的约束强制了轨道的可行性。视觉上来说并不是明确计划K步以及如下动作：

Berkeley用TDM策略制定计划，实现骑行任务

而是直接计划K个时间步长，如下图：

随着K的增加，我们逐渐得到越来越多暂时的抽象计划。在K时间步长中，我们用model-free approach采取行动，从而使model-free策略将如何达到终点的细节抽象化。对于骑行问题以及足够大的K值，通过optimization可以得到如图所示的计划：

Berkeley用TDM策略制定计划，实现骑行任务

model-free计划者可用于选择暂时的抽象目标。可以用model-free算法来实现这些目标。

需要注意的是，这一构想只能每K步优化一次回报。然而，许多任务只考虑某一些状态，比如最终状态（如抵达Golden Gate Bridge），而这一点正适用于各种有趣的任务。

实验

我们用5个模拟的连续控制任务和一个真实的机器人任务测试了TDM。模拟任务是训练机械手臂将圆柱体推到目标位置。下面的示例展示了最终采用的TDM策略以及相关的学习曲线：

Berkeley用TDM策略制定计划，实现骑行任务

上图：任务的TDM策略下图：学习曲线蓝线代表TDM（线的位置越低越好）

在学习曲线中，我们画出到目标的最终的距离以及环境样本的数量（越低越好）。我们的模拟将机器人控制在20赫兹，这意味着在现实世界中，50秒对应1千步。这种环境的动态相对容易学习，这意味着model-based的方法应该更胜一筹。正如预期，model-based方法（紫色的线）学习速度更快，大约3千步或者说25分钟，而且表现也很好。TDM方法（蓝色曲线）学习速度也很快，大约2千步，17分钟。model-free DDPG（没有TDM参与）基线最终解决了问题，但是需要更多的训练样本。TDM方法学习如此之快的一个原因是，其效果相当于套用了model-based方法。

当涉及更需要大量动力的移动任务时，model-free方法的优势就明显多了。其中一项移动任务是训练一个四足机器人，让它移动到一个特定的位置。下图展示了TDM策略与其学习曲线。

Berkeley用TDM策略制定计划，实现骑行任务

上图：移动任务的TDM策略下图：学习曲线蓝线代表TDM（线的位置越低越好）

就像我们使用试错法而不是计划去学习骑自行车，我们期望model-free方法在移动任务上比model-based方法表现更好。这正是我们在学习曲线中看到的：model-based方法表现更好。model-free DDPG方法学习速度更慢，但是最终还是胜过了model-based方法。TDM则速度又快表现又好。

未来发展方向

TDM为model-free到model-based控制的转换，提供了形式主义和实用算法。然而，未来还有很多研究要做。比如，推导假定环境和政策是确定的。事实上，大多数环境都是随机的。即使它们是确定的，在现实中还是有必须使用随机政策的理由。TDM扩展到这一设定有助于将TDM迁移到更实际的环境中。另一个想法是将TDM与我们在文中使用的model-based planning optimization算法结合起来。最后，我们很期待将TDM与现实中的机器人结合，应用到更多有挑战性的任务中，比如移动任务，操纵任务，当然也包括骑行到Golden Gate Bridge任务。

标签：

机器学习伯克利大学 TDM 数据预测

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Uber开源Atari，让个人计算机也可以快速进行深度神经进化研究

下一篇 OpenAI：通过人工智能之间的辩论实现安全的人工智能系统

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）