强化学习简介及马尔科夫决策过程 (3)

  模型在没有样本的情况下,主动去探索,然后从环境中获取一个(延迟)反馈,然后通过反馈进行反思,优化策略/动作,最终学习成为一个强大的智能体。

  当然,强化学习还拥有一些缺点[6]:

样本利用率低,需要用大量样本进行训练。并且有时训练速度还很慢(远远低于人类)。

奖励函数难以设计。大部分的奖励函数都是0,过于稀疏。

容易陷入局部最优。文献[6]中例子指出,一个以速度为奖励函数的马,可以四角朝天的“奔跑”。

对环境的过拟合。往往没办法一个模型用于多个环境。

不稳定性。 不稳定对于一个模型是灾难性的。一个超参数的变化可能引起模型的崩溃。

  当然,我们不能一味肯定,也不能一味否定,强化学习在AUTOML,AlphaGO的成功应用也说明了强化学习尽管会有很多困难,但是也是具有一个具有探索性、启发性的方向。

[1] R.Sutton et al. Reinforcement learning: An introduction , 1998

[2] https://www.cnblogs.com/jinxulin/p/3511298.html

[3] https://zhuanlan.zhihu.com/p/28084904

[4] https://www.cnblogs.com/pinard/p/9385570.html

[5] https://www.cnblogs.com/pinard/p/9426283.html

[6] https://www.alexirpan.com/2018/02/14/rl-hard.html

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgjdgf.html