GateNet论文笔记

引用格式

[1] Zhao X , Pang Y , Zhang L , et al. Suppress and Balance: A Simple Gated Network for Salient Object Detection[J]. 2020.

研究的背景

  • 以往的显著性检测方法使用U-Net或者FPN作为基础结构,但是有两个问题:第一点是编码器和解码器交换信息的时候缺乏对干扰的控制(筛除噪声冗余),以往的工作多使用all-pass的跳跃结构,引入了噪声特征,并且难以充分利用有效特征,因此作者试图在每对编码器块和解码器块之间建立一个信息筛选单元来强化显著性特征,抑制背景干扰;第二点是没有考虑不同编码器块的贡献的差异。
  • 为了获得更大的感受野并结合多尺度信息,前人使用了ASPP模块(atrous spatial pyramid pooling module),但是过大的膨胀率会因为插入了过多的零使得点之间的相关性严重缺乏,这不利于微小结构的识别。

使用的方法(创新点)

  • 整个网络分为编码器网络和解码器网络,前者由去掉全连接层和最后池化层的VGG16组成。后者由FPN分支,Parallel分支和Fold-ASPP模块构成。用E,T,D,G分别代表编码器,transition,解码器和门控单元的特征图。FPN分支通过进行像素级加和逐渐整合多级特征,目的是预测显著性目标的主体,Parallel分支通过通道维度的拼接作为残差模块辅助改进FPN的结果,Fold-ASPP模块利用从E5中学到的语义特征为解码器提供多尺度信息。

GateNet——gated_architecture

  • 提出了新的门控双分支结构来建立不同层次特征之间的协作,提高整个网络的鉴别能力,并进一步恢复显著性图的更多细节。门控单元以$E^i$和$D^{i+1}$作为输入,进行尺度的对齐之后进行拼接,得到$F^i$,将其分别送入两个分支,进行一系列的卷积激活池化操作,得到一对门值$G^i$。该模块公式如下:
    $$
    G^i=
    \begin{cases}
    P(S(Conv(Cat(E^i,D^{i+1})))), & \text{if $i$=1,2,3,4} \\
    P(S(Conv(Cat(E^i,T^i)))), & \text{if $i$=5}
    \end{cases}
    $$
    卷积操作的输出的通道数为2,正好分别对应于两个门值G。这两个门值分别是两个矩阵,我的理解是,这两个矩阵的作用类似于注意力图,与特征图进行像素级乘积,保留并强化显著性特征,抑制不相关的噪声特征。

渐进式结构加上门控单元构成了门控双分支结构。渐进式结构不利于细节信息的恢复,并行结构则容易导致显著性目标的定位不准,因为没有语义信息的低级特征干扰了全局信息的捕捉。而门控双分支结构一定程度上缓解了这两个问题。

GateNet——gated_unit

GateNet——decoder_architecture

  • 在FPN分支中,其公式如下所示:
    $$
    D^i=
    \begin{cases}
    Conv(G_1^i\cdot T^i+Up(D^{i+1})), & \text{if $i$=1,2,3,4} \\
    Conv(G_1^i\cdot T^i), & \text{if $i$=5}
    \end{cases}
    $$
    在Parallel分支中,其公式如下所示:
    $$
    F_{Cat}=Cat(D^1,Up(G_2^1\cdot T^1),Up(G_2^2\cdot T^2),Up(G_2^3\cdot T^3),Up(G_2^4\cdot T^4),Up(G_2^5\cdot T^5))
    $$
    最后的显著性图$S^F$由两个分支的结果通过残差链接整合而成,其公式如下所示:
    $$
    S^F=S(Conv(F_{Cat})+D^1)
    $$

  • 采用了基于所提出的“折叠”操作(Fold-ASPP)的膨胀空间金字塔池化来精确地定位不同尺度的显著对象。这种操作在扩大感受野的同时保留了局部采样点之间的相关性。首先将图中的点堆砌起来,得到$N/2 \cdot N/2 \cdot 4C$的特征图,接着进行空洞卷积,最后进行展开操作,得到最终结果。

GateNet——Fold_ASPP

  • 该模型没有采用深度监督思想,而是对FPN的结果和融合结果进行了监督,两种监督都使用交叉熵作为loss,最终loss是两个loss的加和。

研究的成就

  • 提出了一个简单的门控网络来自适应地控制从每个编码器块流入解码器的信息量。通过多级门控单元,网络可以平衡每个编码器块对解码器块的贡献,并抑制非显著区域的特征。
  • 设计了一个Fold-ASPP模块来捕获更丰富的上下文信息,并定位不同大小的显著对象。通过“折叠”操作,可以得到更有效的特征表示。
  • 建立了一个双分支架构。它们形成一个残差结构,通过门控处理相互补充,产生更好的结果。

评估方法

  • PR曲线,F-measure,MAE和S-measure.

其他

  • 一些SOTA模型:DCL,DSS,Amulet,SRM,DGRL,RAS,PAGE,BMPM,R3Net,HRS,BANet,BASNet,PAGRN,MLMS,ICNet,CPD等。