[Reinforcement Learning] Model-Free Prediction

上篇文章介绍了 Model-based 的通用方法——动态规划,本文内容介绍 Model-Free 情况下 Prediction 问题,即 "Estimate the value function of an unknown MDP"。

Model-based:MDP已知,即转移矩阵和奖赏函数均已知

Model-Free:MDP未知

蒙特卡洛学习

蒙特卡洛方法(Monte-Carlo Methods,简称MC)也叫做蒙特卡洛模拟,是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。其实本质就是,通过尽可能随机的行为产生后验,然后通过后验来表征目标系统。

如下图为使用蒙特卡罗方法估算 \(\pi\) 值,放置30000个随机点后,\(\pi\) 的估算值与真实值相差0.07%。


[Reinforcement Learning] Model-Free Prediction

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpdpjx.html