Structure-Consistent Weakly Supervised Salient Object Detection with Local Saliency Coherence

引用格式

[1] Yu S , Zhang B , Xiao J , et al. Structure-Consistent Weakly Supervised Salient Object Detection with Local Saliency Coherence[C]// 2020.

研究的背景

  1. 近年来,稀疏标签一直备受关注。然而弱监督和全监督的SOD方法之间的性能差距是十分巨大的,并且以前的大多数弱监督方法都采用了复杂的训练过程与花哨的设计技巧。
  2. 对于稀疏标签,会有太多的像素是无标签的,只借助稀疏标签很难获得丰富的关于显著性区域的知识。而且由于没有类别信息,因此更难学习到物体结构。
  3. 一个朴素的想法是如果两个像素具有相似的特征或者相邻的位置,它们就会有相似的显著性分数。

使用的方法(创新点)

  1. 设计了一个单轮的端到端的训练方案,通过未经过前处理、后处理或额外数据监督的草图标注,来进行弱监督的显著目标检测。

    architecture

  2. 提出了局部显著性一致损失函数,根据图像特征和像素距离将标签传播到无标签区域,以便于在没有额外数据监督以及复杂训练过程的前提下预测完整的显著性区域。作者试图借助背景中阐述的朴素想法来标注无标签像素,但是计算图像中每两个点之间的相似性会引入过多的背景噪声,并且计算量太大,因此作者在k$\times$k范围内计算参考点及其相邻点的差异。具体的方法是使用高斯核带宽滤波器来计算相似能量,其公式如下:
    $$
    L_{lsc}=\sum_i\sum_{j\in K_i}F(i,j)D(i,j)
    $$

    $$
    F(i,j)=\frac{1}{w}exp(-\frac{||P(i)-P(j)||^2}{2\sigma_p^2}-\frac{||I(i)-I(j)||^2}{2\sigma_I^2})
    $$

    $$
    D(i,j)=|S_i-S_j|
    $$

    这样就可以使得范围内的相似像素共享一致的显著性分数,还可以将标签传播到每个像素点。

  3. 设计了一个显著性结构一致损失函数作为自洽(self-consistent)机制,用以确保以相同图像的不同尺寸作为输入得到的显著性图是一致的(可以看作是一种增强模型泛化能力的正则化技术)。其公式可以被写为:
    $$
    L_{ssc}=\frac{1}{M}\sum_{u,v}\alpha\frac{1-SSIM(S_{u,v}^\Downarrow,S_{u,v}^\downarrow)}{2}+(1-\alpha)|S_{u,v}^\Downarrow-S_{u,v}^\downarrow|
    $$

  4. 设计了一个聚合模块(AGGM),以更好地整合高级特征、低级特征和全局上下文信息,供解码器聚合各种信息。每个AGGM的输入有三个:对应尺度的特征图、上一解码器层的输出以及编码器最高层的输出。如下图所示,AGGM可以学习对三个特征赋予不同的权重,然后跟着一个归一化操作,于是该模块的公式可以被写为:
    $$
    f_{out}=\frac{w_hf_h+w_gf_g+w_lf_l}{w_h+w_g+w_l}
    $$
    AGGM

  5. 关于损失函数。局部显著性一致损失函数、显著性结构一致损失函数以及部分交叉熵损失函数三者一起作为主loss,用于监督最终预测的显著性图。此外,局部显著性一致损失函数以及部分交叉熵损失函数两者作为辅助loss,在每一个阶段监督中间的低分辨率显著图。其中,部分交叉熵损失是对草图标注中那些被打了标签的像素进行交叉熵的计算。最终,模型的总loss是主loss加三层辅助loss之和。

评估方法

  • PR,MAE,F-measure,E-measure。