模型在没有样本的情况下,主动去探索,然后从环境中获取一个(延迟)反馈,然后通过反馈进行反思,优化策略/动作,最终学习成为一个强大的智能体。
当然,强化学习还拥有一些缺点[6]:
样本利用率低,需要用大量样本进行训练。并且有时训练速度还很慢(远远低于人类)。
奖励函数难以设计。大部分的奖励函数都是0,过于稀疏。
容易陷入局部最优。文献[6]中例子指出,一个以速度为奖励函数的马,可以四角朝天的“奔跑”。
对环境的过拟合。往往没办法一个模型用于多个环境。
不稳定性。 不稳定对于一个模型是灾难性的。一个超参数的变化可能引起模型的崩溃。
当然,我们不能一味肯定,也不能一味否定,强化学习在AUTOML,AlphaGO的成功应用也说明了强化学习尽管会有很多困难,但是也是具有一个具有探索性、启发性的方向。
[1] R.Sutton et al. Reinforcement learning: An introduction , 1998
[2] https://www.cnblogs.com/jinxulin/p/3511298.html
[3] https://zhuanlan.zhihu.com/p/28084904
[4] https://www.cnblogs.com/pinard/p/9385570.html
[5] https://www.cnblogs.com/pinard/p/9426283.html
[6] https://www.alexirpan.com/2018/02/14/rl-hard.html