[Reinforcement Learning] Model-Free Prediction

日期：2021-05-27 栏目：程序人生浏览：次

上篇文章介绍了 Model-based 的通用方法——动态规划，本文内容介绍 Model-Free 情况下 Prediction 问题，即 "Estimate the value function of an unknown MDP"。

Model-based：MDP已知，即转移矩阵和奖赏函数均已知

Model-Free：MDP未知

蒙特卡洛学习

蒙特卡洛方法（Monte-Carlo Methods，简称MC）也叫做蒙特卡洛模拟，是指使用随机数（或更常见的伪随机数）来解决很多计算问题的方法。其实本质就是，通过尽可能随机的行为产生后验，然后通过后验来表征目标系统。

如下图为使用蒙特卡罗方法估算 \(\pi\) 值，放置30000个随机点后，\(\pi\) 的估算值与真实值相差0.07%。

[Reinforcement Learning] Model-Free Prediction