如何解决回归任务数据不均衡的问题? (2)

标签分布平滑:基于这些发现,作者提出了一种在统计学习领域中的核密度估计(LDS)方法,给定连续的经验标签密度分布,LDS使用了一个对称核函数k,用经验密度分布与之卷积,得到一个kernel-smoothed的有效标签密度分布,用来直观体现临近标签的数据样本具有的信息重叠问题,通过LDS计算出的有效标签密度分布结果与误差分布的相关性明显增强。有了LDS估计出的有效标签密度,就可以用解决类别不平衡问题的方法,直接应用于解决DIR问题。比如,最简单地一种make sence方式是利用重加权的方法,通过将损失函数乘以每个目标值的LDS估计标签密度的倒数来对其进行加权。

https://bbs-img.huaweicloud.com/blogs/img/images_162328850124979.png

解决方法二:特征分布平滑(FDS)

如果模型预测正常且数据是均衡的,那么label相近的samples,它们对应的feature的统计信息应该也是彼此接近的。这里作者也举了一个实例验证了这个直觉。作者同样使用对IMDB-WIKI上训练的ResNet-50模型。主要focus在模型学习到的特征空间,不是标签空间。我们关注的最小年龄差是1岁,因此我们将标签空间分为了等间隔的区间,将具有相同目标区间的要素分到同一组。然后,针对每个区间中的数据计算其相应的特征统计量(均值、方差)。特征的统计量之间的相似性可视化为如下图:

https://bbs-img.huaweicloud.com/blogs/img/images_162328853651222.png


红色区间代表anchor区间,计算这个anchor label与其他所有label的特征统计量(即均值、方差)的余弦相似度。此外,不同颜色区域(紫色,黄色,粉红色)表示不同的数据密度。从图中可以得到两个结论:

 anchor label和其临近的区间的特征统计量是高度相似的。而anchor label = 30 刚好是在训练数据量非常多的区域。这说明了,当有足够多的数据时,特征的统计量在临近点是相似的。

 此外,在数据量很少的区域,如0-6岁的年龄范围,与30岁年龄段的特征统计量高度相似。这种不合理的相似性是由于数据不均衡造成的。因为,0-6岁的数据很少,该范围的特征会从具有最大数据量的范围继承其先验。

特征分布平滑:受到这些启发,作者提出了特征分布平滑(FDS)。FDS是对特征空间进行分布的平滑,本质上是在临近的区间之间传递特征的统计信息。此过程的主要作用是去校准特征分布的潜在的有偏差的估计,尤其是对那些样本很少的目标值而言。

https://bbs-img.huaweicloud.com/blogs/img/images_162328857000880.png


具体来说,有一个模型,f代表一个encoder将输入数据映射到隐层的特征,g作为一个predictor来输出连续的预测目标值。FDS会首先估计每个区间特征的统计信息。这里用特征的协方差代替方差,来反映特征z内部元素之间的关系。给定特征统计量,再次使用对称核函数k来smooth特征均值和协方差的分布,这样可以拿到统计信息的平滑版本。利用估计和平滑统计量,遵循标准的whitening and re-coloring过程来校准每个输入样本的特征表示。那么整个FDS过程可以通过在最终特征图之后插入一个特征的校准层,实现将FDS集成到深度网络中。最后,在每个epoch采用了动量更新,来获得对训练过程中特征统计信息的一个更稳定和更准确的估计。

基准DIR数据集

 IMDB-WIKI-DIR(vision, age):基于IMDB-WIKI数据集,从包含人面部的图像来推断估计相应的年龄。

 AgeDB-DIR(vision, age):基于AgeDB数据集,同样是根据输入图像进行年龄估计。

 NYUD2-DIR(vision, depth):基于NYU2数据集,用于构建depth estimation的DIR任务。

 STS-B-DIR(NLP, test similarity score):基于STS-B数据集,任务是推断两个输入句子之间的语义文本的相似度得分。

 SHHS-DIR(Healthcare, health condition score):基于SHHS数据集,该任务是推断一个人的总体健康评分。

具体的实验可以查看该论文,这里附上论文原文以及代码地址:

[论文]:https://arxiv.org/abs/2102.09554

[代码]:https://github.com/YyzHarry/imbalanced-regression

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzpsdw.html