《Playing hard exploration games by watching YouTube》论文解读 (4)

one-to-one alignment capacity

《Playing hard exploration games by watching YouTube》论文解读

meaningful abstraction

《Playing hard exploration games by watching YouTube》论文解读

learning curves

《Playing hard exploration games by watching YouTube》论文解读

score

《Playing hard exploration games by watching YouTube》论文解读

五、总结

  这篇文章确实在三个游戏上做出了效果,这毋庸置疑,但得分超过人类水平的主要原因还是在于模仿了人类高手的玩法。其创新不在于强化学习的算法,主要在于如何直接从视频源进行模仿学习,避开了匹配状态动作对\((S,a)\)的数据预处理步骤。关键点在于构造辅助任务,训练特征提取网络,更多的可以看做是一篇CV的文章。
  不过将模仿学习和强化学习相结合的训练方式,值得认真思考和研究。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zywsgf.html