贝尔曼方程
  • 2018年05月30日 学习
    在本文中,我们将学习贝尔曼方程和价值函数。 回报和返还(return) 正如前面所讨论的,强化学习agent如何最大化累积未来的回报。用于描述累积未来回报的词是返还,通常用R表示。我们还...