目录
- 0.简介
- 1.强化学习简述
- 2.马尔可夫决策过程
- 2.1马尔可夫过程
- 2.2马尔可夫奖励过程
- 2.3价值函数
- 3.贝尔曼方程(Bellman Equation)
- 3.1马尔可夫奖励过程的贝尔曼方程
- 3.2马尔可夫决策过程 - 定义
- 3.3策略
- 3.4动作价值函数
- 3.5最优策略
- 3.6 贝尔曼最优方程
这是关于自学习AI智能体系列的第一篇文章,或者我们可以更准确地称之为 - 深度强化学习。本系列文章的目的不仅仅是让你对这些概念有一个直观的认识。而是想让你更深入地理解深度强化学习最流行也最有效的方法背后的理论,数学原理和实现。
自学习AI智能体系列目录:
AI学会了如何奔跑和越障
近些年来,深度强化学习正在兴起。世界各地的研究人员和大众媒体对其的关注超过了深度学习的其他子领域。在深度学习方面取得的最大成就是源自深度强化学习。从来自谷歌的Alpha Go在围棋游戏中击败了世界上最强的人类玩家((这一成就在几年前被认为是不可能实现的)到DeepMind的 AI智能体自学走路,跑步和越障 。
AI智能体学会了如何跑步和越障。
AI智能体学会了如何跑步和越障。
AI智能体学习了如何玩打砖块
所谓深度强化学习,说白了是构建一个直接从与环境的交互中学习的算法(即AI智能体)(图5)。环境可以是现实世界、计算机游戏,模拟系统甚至是棋盘游戏,如围棋或国际象棋。与人类一样,AI智能体从其行为的结果中学习(而不是直接教)。
深度强化学习的示意图
马尔可夫决策过程(MDP)是一个离散时间随机控制过程。MDP是迄今为止为AI智能体的复杂环境建模的最佳方法。智能体需要解决的每个问题可以被认为是状态序列S1,S2,S3,... Sn(状态可以是围棋或象棋棋盘的布局)。智能体执行操作并从一个状态移动到另一个状态。接下来,你将学习确定智能体在给定情况下必须采取何种动作的数学原理。
Eq.1马尔可夫特性
Eq.2从状态s到状态 s'的转换概率
Eq.3转移概率矩阵
马尔可夫奖励过程是元组< S,P,R >。这里R是智能体希望在状态s中获得的奖励(等式4)。该过程基于这样一个事实:对于旨在实现某个目标(例如赢得国际象棋游戏)的AI智能体,某些状态(游戏配置)在策略和赢得游戏的潜在可能比其他状态更大。
Eq.4状态s的预期奖励
Eq.5所有状态的总奖励
另一个重要的概念是价值函数v(s)。价值函数将价值映射到每个状态s。状态s的价值被定义为AI智能体在状态s中开始行动将获得的预期总奖励(等式6)。
Eq.6价值函数,从状态s开始的预期收益
价值函数可以分解为两部分:
Eq.7分解价值函数
分解的价值函数(公式8)也称为马尔可夫奖励过程的贝尔曼方程。该函数可以在节点图中显示(如下)。从状态s开始得到价值v(s)。处于状态s我们有一定的概率Pss'到下一个状态s'。在这种情况下,我们有两个可能的下一状态。 为了获得值v(s),我们必须计算由概率Pss'加权的可能的下一个状态价值v(s')的总数并加上加上状态s的即时奖励 。这就是公式9,只不过是在方程中执行了期望算子的公式8。
Eq.8分解值函数
从s到 s'的随机过渡
Eq.9执行期望算子E后的贝尔曼方程
马尔可夫决策过程是马尔可夫奖励过程的决策。马尔可夫决策过程由一组元组描述,其中A是智能体可以在状态s中采取的可能动作的有限集合。因此,处于状态s的即时奖励现在也取决于智能体在这种状态下采取的行动a (公式10)。
Eq.10预期奖励取决于状态内的动作
在这里,我们将讨论智能体如何确定在特定状态下必须采取哪些动作。这由所谓的策略π(公式11)决定。从数学角度讲,策略是对给定状态的所有动作的分配。策略决定了从状态s到智能体必须采取的操作a的映射。
Eq.11从s到a的映射的策略
Eq.12状态价值函数
除状态值函数之外,另一个重要函数是动作价值函数q(s,a)(等式13)。动作价值函数是我们从状态s开始采取动作a然后遵循策略π获得的预期回报。值得注意得失,对于状态s,q(s,a)可以采用多个值,因为智能体可以在状态s中执行多个动作。Q(s,a)的计算是通过神经网络实现的。给定一个状态s作为输入,网络计算该状态下每个可能动作的质量(Quality)作为标量(如下图)。更高的质量意味着对给定目标采取更好的动作。
动作价值函数的图示
Eq.13动作价值函数
Eq.14分解的状态价值函数
Eq.15分解的动作价值函数
v(s)和 q(s,a)之间关系的可视化
Eq.16状态价值函数等于动作价值的加权和
v(s)和 q(s,a)之间关系的可视化
Eq.17q(s,a)和 v(s)之间的关系
Eq.18动作价值函数的递归性质
Eq.1q(s,a)的递归行为的可视化
深度强化学习中最重要的是找到最优的动作价值函数q *。找到q *表示智能体确切地知道任何给定状态下的动作的质量。此外,此外,代理可以决定必须采取的行动的质量。现在,我们定义q *的含义。最佳的动作价值函数是遵循最大化动作价值的策略的函数:
Eq.19最佳动作价值函数的定义
Eq.20最优策略。采取最大化q(s,a)的动作
可以将最优策略的条件插入到公式18,贝尔曼最优方程:
Eq.21贝尔曼最优方程