强化学习简介及马尔科夫决策过程

陈迪 用户策略部 2019年11月12日

1. 什么是强化学习

  强化学习(reinforcement learning, RL)是近年来大家提的非常多的一个概念,那么,什么叫强化学习?

  强化学习是机器学习的一个分支,和监督学习,非监督学习并列。

  参考文献[1]中给出了定义:

Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.

  即强化学习是通过学习将环境状态转化为动作的策略,从而获得一个最大的回报。

  举个栗子[2],在flappy bird游戏中,我们想设计一个获得高分的策略,但是却不清楚他的动力学模型等等。这是我们可以通过强化学习,让智能体自己进行游戏,如果撞到柱子,则给负回报,否则给0回报。(也可以给不撞柱子持续给1点回报,撞柱子不给回报)。通过不断的反馈,我们可以获得一只飞行技术高超的小鸟。

  通过上面例子,我们可以看到强化学习的几个特性[3]:

没有label,只有奖励(reward)

奖励信号不一定是实时的,很有可能延后的。

当前的行为影响后续接收到的数据

时间(序列)是一个重要因素

2. 强化学习的建模

img

  上面的大脑代表我们的智能体,智能体通过选择合适的动作(Action)\(A_t\),地球代表我们要研究的环境,它拥有自己的状态模型,智能体选择了合适的动作\(A_t\),环境的状态\(S_t\)发生改变,变为\(S_{t+1}\),同时获得我们采取动作\(A_t\)的延迟奖励\(R_t\),然后选择下一个合适的动作,环境状态继续改变……这就是强化学习的思路。

  在这个强化学习的思路中,整理出如下要素[4]:

  (1)环境的状态\(S\)\(t\)时刻环境的状态\(S_t\)是它的环境状态集中的某一个状态;

  (2)智能体的动作\(A\)\(t\)时刻智能体采取的动作\(A_t\)是它的动作集中的某一个动作;

  (3)环境的奖励\(R\)\(t\)时刻智能体在状态\(S_t\)采取的动作\(A_t\)对应的奖励\(R_{t+1}\)会在\(t+1\)时刻得到;

除此之外,还有更多复杂的模型要素:

  (4)智能体的策略\(\pi\),它代表了智能体采取动作的依据,即智能体会依据策略\(\pi\)选择动作。最常见的策略表达方式是一个条件概率分布\(\pi(a|s)\),即在状态\(s\)时采取动作\(a\)的概率。即\(\pi(a|s)=P(A_t=a|S_t=s)\),概率越大,动作越可能被选择;

  (5)智能体在策略\(\pi\)和状态\(s\)时,采取行动后的价值\(v_\pi(s)\)。价值一般是一个期望函数。虽然当前动作会对应一个延迟奖励\(R_{t+1}\),但是光看这个延迟奖励是不行的,因为当前的延迟奖励高,不代表到\(t+1,t+2,\dots\)时刻的后续奖励也高, 比如下象棋,我们可以某个动作可以吃掉对方的车,这个延时奖励是很高,但是接着后面我们输棋了。此时吃车的动作奖励值高但是价值并不高。因此我们的价值要综合考虑当前的延时奖励和后续的延时奖励。 \(v_\pi(s)\)一般表达为:
\[ v_\pi(s)=E(R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\dots|S_t=s) \]
  (6)其中\(\gamma\)作为奖励衰减因子,在\([0,1]\)之间,如果为0,则是贪婪法,即价值只有当前延迟奖励决定。如果为1,则所有的后续状态奖励和当前奖励一视同仁。大多数时间选择一个0到1之间的数字

   (7) 环境的状态转化模型,可以理解为一个状态概率机,它可以表示为一个概率模型,即在状态\(s\)下采取动作\(a\),转到下一个状态\(s^{'}\)的概率,表示为\(P_{ss{'}}^{a}\)

  (8)探索率$\epsilon \(主要用在强化学习训练迭代过程中,由于我们一般会选择使当前轮迭代价值最大的动作,但是这会导致一些较好的但我们没有执行过的动作被错过。因此我们在训练选择最优动作时,会有一定的概率\)\epsilon $不选择使当前轮迭代价值最大的动作,而选择其他的动作。

3.马尔科夫决策过程(Markov Decision Process ,MDP)

  环境的状态转化模型,表示为一个概率模型\(P_{ss{'}}^{a}\),它可以表示为一个概率模型,即在状态\(s\)下采取动作\(a\),转到下一个状态\(s^{'}\)的概率。在真实的环境转化中,转化到下一个状态\(s{'}\)的概率既和上一个状态\(s\)有关,还和上一个状态,以及上上个状态有关。这样我们的环境转化模型非常非常非常复杂,复杂到难以建模。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgjdgf.html