《Population Based Training of Neural Networks》论文解读 (2)

日期：2021-07-27 栏目：程序人生浏览：次

Toy example
作者举了一个小例子来说明PBT算法的好处，虽然有点牵强，但是也有一定道理。作者假设了一个优化函数：\(Q(\theta)=1.2-(\theta_0^2+\theta_1^2)\)，目标是求该函数的最大值。我们不知道具体函数，只知道该函数的形式是\(\hat{Q}(\theta|h)=1.2-(h_0\theta_0^2+h_1\theta_1^2)\)，其中\(h_0,h_1\)是超参数，\(\theta_0,\theta_1\)是参数。作者对比了PBT，只有替换(exploit)的PBT，只有加随机扰动(explore)的PBT和网格搜索。作者设置了只有两个worker的PBT算法，即初始化两个模型。其中，参数初始化为\(\theta=[0.9,0.9]\)，超参数分别设置为\(h=[1,0]\)和\(h=[0,1]\)。每更新5步设置一个checkpoint。

《Population Based Training of Neural Networks》论文解读

从上图可以看出，结果显然是PBT效果好。作者举的这个例子比较极端，不过也确实能说明一些道理。就是说在训练过程中超参数也需要不断修正以找到最优值，而PBT算法刚好可以做到这一点。

其他环境效果展示
作者还在一些具体场景上做了实验，比如强化学习，机器翻译，对抗网络等等。这里贴出部分结果，详细参看原文。

效果提升展示

《Population Based Training of Neural Networks》论文解读

baseline曲线对比

《Population Based Training of Neural Networks》论文解读

对照实验(ablation experiments)

《Population Based Training of Neural Networks》论文解读

五.总结

这篇文章思想简单，效果不错，实验结果也在情理之中。除了算法，其算力起到了很重要的作用。比如RL的实验里worker数量是10-80个，MT里是32个，GAN里是45个，这个算力普通实验室要做类似工作代价还是比较高的。不过在当前的大环境下，没有算力确实是寸步难行，特别是RL。

内容版权声明：除非注明，否则皆为本站原创文章。

转载注明出处：https://www.heiqu.com/zyfwdz.html