北大博士生提出CAE，下游任务泛化能力优于何恺明MAE (2)

日期：2022-09-23 栏目：程序人生浏览：次

除此之外，也进一步验证了以CAE为代表的MIM方法，要比Moco v3、DINO为代表的对比学习方法更适合下游任务。

该论文从随机裁剪操作的性质分析，认为随机裁剪有很大概率包含图像的中心区域。

而ImageNet-1K这种数据集中，中心区域通常是1000类标签集中的物体（如下图）。因此，对比学习方法主要提取图像中主体物体的特征。

而MIM方法能学到每个patch的特征，包括图像的背景区域，而不仅仅是图像主体物体，这让MIM学到的表征更适合下游检测分割任务。

论文对CAE和MoCo v3的注意力图做了可视化。红色表示注意力值更高，蓝色表示注意力值更低。第一行是原图，第二行是 MoCo v3，第三行是 CAE。可以看到，MoCo v3 的注意力图主要在图像的主体区域有高响应，而 CAE 能考虑到几乎所有patch。

实验结果

研究团队使用ViT-small和ViT-base在 ImageNet-1K 上进行实验，输入图像的分辨率224*224，每张图被分成14*14的patch，每个patch的大小为16*16。

每次将有75个patch被随机掩码，其余patch则为可见的。

本文参照BEiT，使用DALL-E tokenizer对输入图像token化，得到预测目标。

最终结果显示，在语义分割任务中，跟其他MIM方法，比如MAE、BEiT，以及对比学习、有监督预训练方法的表征结果更好。

在物体检测、实例分割的结果也是如此。

最后欢迎大家关注我的微信公众号：对白的算法屋（duibainotes），跟踪NLP、推荐系统和对比学习等机器学习领域前沿，日常还会分享我的创业心得和人生感悟。想进一步交流的同学也可以通过公众号加我的微信，和我一同探讨技术问题，谢谢！