语义分割——Deeplab (3)

图4:多孔空间金字塔池化(ASPP)。为了分类中间像素(橙色),ASPP用不同采样率的多个并行滤波器开发了多尺度特征。视野有效区用不同的颜色表示。

Structured Prediction with Fully-Connected Conditional Random Fields for Accurate Boundary Recovery

准确定位和分类性能之间的权衡似乎是DCNN中固有的:模型越深,池化层越多,分类越成功,但是增加的不变性和顶层节点的大视野域只能产生平滑的响应。如图5所示(上上个图),DCNN的得分图只能预测物体的存在和粗略位置,但不能真正描绘他们的边界。

以前的工作追求两个方向来解决这一定位挑战。第一种方法是利用卷积网络中多层的信息来更好地估计物体边界(如FCN)。第二种是采用超像素表示(super-pixel representation),基本上将定位任务委托给低级别的分割方法。

我们将DCNN的识别能力与随机场优化的定位精度耦合在一起寻求解决方法,非常成功地处理定位挑战问题,产生了准确的语义分割结果并恢复了对象边界。

传统方法中,条件随机场(CRFs)用于平滑带噪声的分割图。通常,这些模型将邻近结点耦合(these models couple neighboring nodes),这样有利于将相同标签(label)分配给空间上接近的像素。定性的说,这些短程条件随机场基础函数会清除构建在局部手动特征上层弱分类器的错误预测。

与这些较弱的分类器相比,现代DCNN架构(例如我们在此工作中使用的架构)产生的得分图和语义标签预测在质量上是不同的。如图5所示,得分图通常非常平滑并产生均匀的分类结果。在这种情况下,使用short-range CRF可能是有害的,因为我们的目标应该是恢复详细的局部结构而不是进一步平滑它。用local-range CRFs关联中的反差灵敏势(constrast sensitive potentials),可以增强定位,但还是会漏掉细小结构,并且这种方法通常都需要处理离散优化问题(这种问题处理代价昂贵)。

为了克服short-range CRFs的局限性,我们在系统中整合了论文22的全连接随机场模型(fully connected CRF model)。模型使用了如下能量函数:

语义分割——Deeplab

其中x是像素级的标签。我们将其用作单点势能θi(xi)=-log P(xi),其中P(xi)是DCNN计算的像素i处的标签分布概率。一对势能有相同的形式,可以用全连接图进行推理,比如, 
连接图像像素所有配对,i,j。具体来说,如论文22,我们用如下表达式:

语义分割——Deeplab

其中,如果xi≠xj,μ(xi,xj)=1,否则为0;在波茨模型(Potts model)中,只有显著标签的结点才会惩罚。表达式的剩下部分用了两个不同特征空间的高斯核;第一个是像素位置(记为p)和RGB颜色(记为I)间的双向核,第二个核是像素位置。超参数σασβσγ控制高斯核的尺度。第一个核强制相同和位置的像素具有相同的标记,第二个核在强制平滑时只考虑空间上的接近程度。

关键是,这个模型可以有效近似概率推理。在全分解平均场(under a full decomposable mean field)估计b(x)=Πi bi(x i)的信息传递更新可以表示成双边空间下的高斯卷积。高维滤波算法明显地加速了这个计算过程,使算法在实际中非常快,用论文22的实现方法,在PASCAL VOC图像上平均少于0.5秒。

参考博客:https://blog.csdn.net/GL_a_/article/details/80790463

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyspwz.html