\1.标题:A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation
\2.作者:\(Rihuan Ke^{*1} , Angelica Aviles-Rivero^{*1} , Saurabh Pandey^3 , Saikumar Reddy^4 , and\ Carola-Bibiane\ Schonlieb^1\)
\3.作者单位:\(^1Centre\ for\ Mathematical\ Sciences,\ University\ of\ Cambridge,\ Cambridge\ CB3\ 0WA,UK.^†\ ^2KritiKal Solutions^‡\)
\4.发表期刊/会议:CVPR
\5.发表时间:2020
\6.原文链接:https://arxiv.org/abs/2012.00827
Abstract语义分割在社区中得到了广泛的研究,其中SOTA的技术是基于监督模型的。这些模型展现出了前所未有的性能,代价是需要大量高质量的分割mask。获取这样的标注是非常昂贵和耗时的,特别是在需要像素级标注的语义分割中。在这项工作中,我们提出了一个完整的解决方案,作为半监督语义分割的三阶段自训练框架。该技术的核心思想是提取伪标签统计信息,以减少预测的不确定性,同时在多任务方式下增强分割一致性。我们通过三个阶段的解决方案来实现这一目标。首先,我们训练一个分割网络来生成预测概率高度不确定的粗糙伪标签。其次,我们利用数据丰富的统计信息,利用多任务模型增强一致性,降低伪掩码的不确定性。我们将我们的方法与现有的半监督语义分割方法进行了比较,并通过大量的实验证明了其SOTA的性能。
1.Introduction语义分割是计算机视觉中的一项基础任务,它的目标是从一组预定义的类中为图像中的每个像素分配一个标签。这一任务在文献中得到了广泛的探索,但尚未完全解决。目前最先进的模型是建立在深度网络的基础上的[30,5,34,53,54]。虽然这些技术已经报道了前所未有的结果,但它们依赖于非常高的标注数据体系。这是一个强烈的假设,因为标注是像素级的;这是昂贵的,耗时的,并且是人类固有的偏见。要解决缺乏大量且具有良好代表性的标签集的问题,可以更多地依赖于无标签的样本。
另一种方法是使用完全无标记的数据,即无监督学习。然而,由于样本和类之间缺乏对应关系,性能大大降低,因此这种范式在语义分割方面并不成功。另一种选择是使用弱监督技术[25,40],然而,来自未标记样本的丰富信息没有得到充分利用,性能仍然有限。一个可行的选择是使用半监督学习,利用大量的标记数据和少量的注释。虽然semi-supervised learning(SSL)在社区里已被广泛开发[4],深度semi-supervised learning只是在过去的几年里有明显的进步,而且主要用于图像分类的任务如[24,32,44],这些理论近年来在语义分割领域得到广泛的应用[17,11,36,10]。
现有的SSL技术大致可以分为熵最小化[13]、生成式模型[23]、基于图的技术[56]、基于代理的技术(建立在伪标签/自训练之上)[46]、一致性正则化[24,32]和整合了每个原则中最佳原则的整体方法。对于语义分割,现有的技术使用生成模型和一致性正则化技术。尽管该任务报告的结果很有希望,但仍有很多改进的空间,特别是关于如何改进置信度预测。
为此,我们提出了一种新的语义分割框架,该框架假定数据的有标签样本非常少。我们的整体解决方案是半监督学习的三个阶段的自我训练技术。我们的框架的每个阶段都有一个目的:阶段1通过训练的分割网络生成初始伪掩模(在伪标签意义上),阶段2是一个多任务模型,学习伪掩码统计信息(Task 2)和分割(Task 1),用于生成更高质量的伪掩码,然后在第三阶段利用更新后的伪掩码和微量标注集对分割网络进行训练。我们的贡献如下:
我们提出了一种新的深度半监督语义分割的自训练框架,其中我们强调:
一个端到端的优化模型被构建成一个三个阶段的解决方案。我们的模型使用多任务模型降低了伪掩模预测概率的不确定性,在利用数据统计信息的同时加强了分割的一致性。
本文介绍了语义切分的一个新视角——整体原则。我们证明,虽然一致性正规化是重要的,但需要解释预测伪掩模的不确定性。我们表明,从两个来源学习信息可以增加确定性预测。
我们在一系列数值和可视化结果上验证了我们的技术,并将其与当前的SOTA深度半监督语义分割技术进行了比较。我们证明了我们设计良好的模型实现了它的目的,并且我们所提出的技术优于当前那些依赖非常有限的真值标签的SOTA语义分割模型。
2.Related WorkLong[30]的开创性工作表明,全卷积网络具有将学习到的表示转移到分割任务中的潜力,因此使用深度监督技术进行分割已经取得了重大进展,包括[2,5,34,38]。最近,复杂的机制被结合起来,以克服现有技术的性能限制,包括结构搜索[33,29,52,27]、注意力机制[53,50,51,16]和重新设计几种架构的原则[47,26,37,54,55]。