A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation (2)

日期：2022-06-16 栏目：程序人生浏览：次

尽管这些技术显示了惊人的结果，一个主要的共有缺点是这些假设都是建立在用于足够多的标记数据的设置下。这推动了对标注数据依赖较少的技术的快速发展，如弱监督分割，如[1,25,40,19,42,18]。当前关注的焦点是深度半监督学习的最新发展，这也是本研究的重点。在本节中，我们依次回顾现有的技术。

Deep Semi-Supervised Learning. 自[4]领域的早期开发以来，半监督学习(SSL)已经得到了广泛的研究。然而，在过去的几年中，对这种范式的兴趣有了显著的增长，这尤其是因为SSL的基础理论与深网的强大功能相结合，深网报告了令人印象深刻的结果，很容易与完全监督的技术相竞争。这种性能增益主要报道在图像分类的背景下，其中已经发展了几种技术，例如[24,32,44]。然而，图像分类与语义分割之间存在显著差异，后者涉及到更密集、更复杂的预测。

图像分类的深层SSL可以使用不同的原则来实现，其中主要的成功是通过一致性正则化实现的[24,43,39,32,3]。该理论的核心思想是，在诱导扰动下的无标记样本(\(x_u∈D_u\)表示无标记集)δ不应改变性能输出，使\(f(x_u) = f(x_u + δ)\)。该原则通过将决策边界推到低密度区域来强制执行SSL的等价形式，从而放松了SSL的集群假设。虽然在图像分类中应用的原则可以以某种方式外推到语义分割，但任务之间的固有差距阻止语义分割技术达到类似的高性能，如分类中报告的[11]，因此，需要重新考虑用于语义分割的深层SSL的设计。

Deep Semi-Supervised Semantic Segmentation. 标注质量在技术性能中起着至关重要的作用。特别是在语义分割的任务中，标签的开销过大。例如，来自分割基准数据集Cityspaces[6]的一张分辨率为1024x2048的图像，涉及超过1M的像素标签，容易出现注释错误，需要考虑像素模糊的问题。SSL非常适合手头的任务，因为前面的方法依赖于一组很小的标签。用于语义分割的深层SSL最近只在少数工作中进行了探索。

早期的技术依赖于GANs[12]原理。

[41]作者提出通过生成gan型合成图像来扩大训练集，以丰富特征空间，加强无标记样本和有标记样本之间的关系。Hung等人[17]提出一种基于GAN的预测概率图与地面真值分割的区分技术。类似地，Mittal等人[31]提出了一个双分支解决方案，包括:i)为输入样本生成每像素类标签的GAN分支和ii)多标签Mean Teacher[43]分支，以消除假阳性预测。

最近，[11]的作者将CutMix[48]扩展到语义分割的上下文中。在这篇论文中，作者应用了强增强的原理，包括Cutout，从图像分类的发现。[36]的作者强调了基于特征、基于预测和随机扰动之间的一致性。Ke等人的[20]使用了缺陷概率图，并将双学生[21]扩展到像素级任务。在[10]中提出了一种基于伪标签的离线自训练方案，增强了有标记集和无标记集之间的一致性。

3.Proposed Technique

本节包含了我们提出的框架的三个核心部分:(i)如何生成初始伪掩码，(ii)多任务模型，以提高初始伪掩模的质量;(iii)如何在最终模型中传播高质量的伪掩模。整个工作流显示在图1中。

A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation

Our Deep SSL Setting. 我们的整体技术建立在深度半监督学习的三个阶段的自训练技术框架。在我们的设置中，我们假设我们有大量的未标记数据和少量的标注数据。形式上，我们用\(\{(x_i， y_i) | i∈L\}\)，其中\(x_i\)为图像，\(y_i\)为\(x_i\)对应的ground truth segmentation mask.未标记样本集表示为\(\{x_i| i∈U\}\)。我们考虑的学习问题，只有一小部分的图像被标记，\(|L|\ll|U|\)接下来，我们将详细讨论我们的技术。

3.1. Consistency Regularisation with Strong Augmentations

半监督学习的一个关键问题是如何对未标记数据\(x_i (i∈U)\)计算具有高确定性的标签。在深度学习的背景下，我们研究了先验知识，以便更好地利用丰富的未标记数据。

为了明确SSL分段设置中的一致性规则化，我们定义一个操作符为\(A:\mathbb{R}^{n\times m \times c}\rightarrow \mathbb{R}^{n\times m \times c}\)获取取图像x的随机扰动版本\(Ax\)。这种扰动的常见例子包括旋转、翻转、平移及其组合。我们还定义运算符为 \(B:\mathbb{R}^{n\times n \times c'}\rightarrow \mathbb{R}^{n\times n \times c'}\)它以与A相同的方式将分割掩码的像素映射到一个新的掩码。一致性损失定义为:

\[\mathcal{L}_{\text {con }}:=\sum_{i \in L \cup U} d_{c}\left(f_{\theta}\left(A x_{i}\right), B f_{\theta^{\prime}}\left(x_{i}\right)\right) \]

转载注明出处：https://www.heiqu.com/zzxpwy.html

A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation (2)

相关推荐