[Reinforcement Learning] Cross-entropy Method

Cross-entropy Method(简称CEM)虽然是一种基于交叉熵的算法,但并不是我们熟知的监督学习中的交叉熵方法,与其说它是一种基于交叉熵的算法,倒不如说是一种基于蒙特卡洛和进化策略的算法。CEM算法不仅可以用作评估,也可以作为一种有效的优化算法,与进化算法(EAs)类似CEM是一种完全免梯度(gradients free)的算法。

这里引用维基百科上对Cross-entropy Method的解释[1]:

The cross-entropy (CE) method is a Monte Carlo method for importance sampling and optimization. It is applicable to both combinatorial and continuous problems, with either a static or noisy objective.

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpxzzs.html