如何基于MindSpore实现万亿级参数模型算法？ (5)

日期：2021-07-25 栏目：程序人生浏览：次

如使用LSH (locality sensitive hashing)做路由：在整个可学习网络的前端，使用LSH来分派样本，这样可以避免LSH部分求导问题；如果在网络中间增加LSH模块，需要通过梯度估计完成确定性算法部分梯度传递。

可学习路由

简单的做法，定义gate_weights为可学习Parameter，对于二维的张量，通过python@或者matmul等完成权重路由计算；如果是更高维度的张量，且需固定batch维，einsum('bd*,*de->b*e')的形式完成计算。

2、topk和softmax的前后关系

在G_1(x)=softmax(topk(X*W)))和G_2(x)=topk(softmax(X*W)))两类Gate实现中，

将softmax置于Topk前后，对top-k的选择不变；当需要将G_*作为后序网络输入的一部分，即将路由权重信息作为后续网络输入信息，则需要考虑：需要all-N专家之间的归一化权重，则softmax置于top-k之前；否则softmax置于top-k之后，来计算top-N专家之间的归一化权重。

3、如何每专家在批次处理中平衡

按照每样本的路由权重求和，即对batch单个样本被分配的1+个export的重要性和权重求和，计算出importance；按照每样本的路由权重中非0的求和，计算出有负载的专家来求得load。将coefficient_of_variation(importance) + coefficient_of_variation(load)作为auxiliary_loss参与优化，来平衡importance和load。变异系数(Coefficient of Variation)是用于无量纲度量数据的离散程度，越离散在此处表示均衡性越差，需要向更小优化。

在Transformer等多层（多处）MoE的模型中，将多组auxiliary_loss联合作为auxiliary_loss, 在加dominated_loss之后即可。

转载注明出处：https://www.heiqu.com/zyfyps.html

如何基于MindSpore实现万亿级参数模型算法？ (5)

相关推荐