强化学习简介及马尔科夫决策过程 (2)

  因此,我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性:转化到下一个状态\(s{'}\)的概率仅和当前状态\(s\)有关,与之前状态无关,用公式表示就是:
\[ P_{ss'}^{a}=E(S_{t+1}=s'|S_t=s,A_t=a) \]
  同时对于第四个要素策略\(\pi\),我们也进行了马尔科夫假设,即在状态\(s\)下采取动作\(a\)的概率仅和当前状态\(s\)有关,和其他要素无关:
\[ \pi(a|s)=P(A_t=a|S_t=s) \]
  价值函数\(v_\pi(s)\)的马尔科夫假设:

\[ v_\pi(s)=E(G_t|S_t=s)=E_\pi(R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\dots|S_t=s) \]

\(G_t\)表示收获(return), 是一个MDP中从某一个状态\(S_t\)开始采样直到终止状态时所有奖励的有衰减的之和。

  推导价值函数的递推关系,很容易得到以下公式:
\[ v_\pi(s)=E_\pi(R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s) \]
上式一般称之为贝尔曼方程,它表示,一个状态的价值由该状态以及后续状态价值按一定的衰减比例联合组成。

4. 动作价值函数及贝尔曼方程

  对于马尔科夫决策过程,我们发现它的价值函数\(v_\pi(s)\)没有考虑动作,仅仅代表了当前状态采取某种策略到最终步骤的价值,现在考虑采取的动作带来的影响:
\[ q_\pi{(s,a)}=E(G_t|S_t=s,A_t=a)=E_\pi(R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\dots|S_t=s,A_t=a) \]
  动作价值函数\(q_\pi(s,a)\)的贝尔曼方程:
\[ q_\pi(s,a)=E_\pi(R_{t+1}+\gamma q_\pi(S_{t+1},A_{t+1})|S_t=s,A_t=a) \]
  按照定义,很容易得到动作价值函数\(q_\pi(s,a)\)和状态价值函数\(v_\pi(s)\)的关系:
\[ v_\pi(s)=\sum_{a\in A}\pi(a|s)q_\pi(s,a) \]
也就是说,状态价值函数是所有动作价值函数基于策略\(\pi\)的期望。

  同时,利用贝尔曼方程,我们利用状态价值函数\(v_\pi(s)\)表示动作价值函数\(q_\pi(s,a)\),即:
\[ q_\pi(s,a)=E_\pi(R_{t+1}+\gamma q_\pi(S_{t+1},A_{t+1})|S_t=s,A_t=a) \]

\[ =E_\pi(R_{t+1}|S_t=s,A_t=a)+\gamma E_\pi(q_\pi(S_{t+1},A_{t+1})|S_t=s,A_t=a) \]

\[ =R_s^a+\gamma \sum_{s'}P_{ss'}^{a}\sum_{a'}\pi(a'|s')q_\pi(s',a') \]

\[ =R_s^a+\gamma \sum_{s'}P_{ss'}^av_\pi(s') \]

  公式5和公式12总结起来,我们可以得到下面两式:
\[ v_\pi(s)=\sum_{a \in A}\pi(a|s)(R_s^a+\gamma \sum_{s'}P_{ss'}^av_\pi(s')) \]

\[ q_\pi(s,a)=R_s^a+\gamma \sum_{s'}P_{ss'}^av_\pi(s') \]

5. 最优价值函数

  解决强化学习问题意味着要寻找一个最优的策略让个体在与环境交互过程中获得始终比其它策略都要多的收获,这个最优策略我们可以用 \(\pi^*\)表示。一旦找到这个最优策略 \(\pi^*\),那么我们就解决了这个强化学习问题。一般来说,比较难去找到一个最优策略,但是可以通过比较若干不同策略的优劣来确定一个较好的策略,也就是局部最优解。

  如何比较策略优劣?一般通过对应的价值函数进行比较:
\[ v_{*}(s)=\max _{\pi} v_{\pi}(s)=\max_\pi \sum_a\pi(a | s) q_{\pi}(s, a)=\max _{a} q_{*}(s, a) \]
  或者最优化动作价值函数:
\[ q_{*}(s, a)=\max _{\pi} q_{\pi}(s, a) \]

\[ =R_s^a+\gamma \max_\pi v_\pi(s') \]

  状态价值函数\(v\)描述了一个状态的长期最优化价值,即在这个状态下考虑到所有可能发生的后续动作,并且都挑选最优动作执行的情况下,这个状态的价值。

  动作价值函数\(q\)描述了处于一个状态,并且执行了某个动作后,所带来的长期最有价值。即在这个状态下执行某一特定动作后,考虑再之后所有可能处于的状态下总是选取最优动作来执行所带来的长期价值。

  对于最优的策略,基于动作价值函数我们可以定义为:
\[ \pi_{*}(a | s)=\left\{\begin{array}{ll}{1} & {\text { if } a=\arg \max _{a \in A} q_{*}(s, a)} \\ {0} & {\text { else }}\end{array}\right. \]
  只要我们找到了最大的状态价值函数或者动作价值函数,那么对应的策略\(\pi^*\)就是我们强化学习问题的解。

6.强化学习的实例

  关于强化学习的实例,具体可参见[4]和[5],很强,很棒。

7.思考

  在很多人的文章中,将强化学习训练的模型被称之为“智能体”,为什么呢?因为它和我们人类学习的思路很相似:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgjdgf.html