A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection

引用格式

[1] Zhao X , Zhang L , Pang Y , et al. A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection[J]. 2020.

研究的背景

现存的RGB-D SOD模型关注RGB流和depth流的融合，但是并没有充分挖掘深度图本身，此外，分别从rgb图像和深度图像中提取特征会显著增加参数量。
rgb图像和深度图像具有较大差异，如果将二者拼接起来送入网络，就会使得网络难以训练。
深度图中所展示的稳定几何结构对光照和纹理的变化具有鲁棒性，可以为处理复杂的环境提供重要的补充信息。

使用的方法（创新点）

提出单流网络来实现早期和中期的融合，充分利用预训练模型的特征提取能力，并节省参数。网络采用FCN架构，vgg-16作为backbone，输入是四通道的图像矩阵。
在编码器和解码器之间设计了新颖的深度增强双注意力机制(DEDA)，同时采用mask进行监督，以及深度信息来进行指导，以此来过滤噪声特征。从T、S以及D的拼接矩阵中通过卷积激活得到注意力矩阵。

为了防止背景被分类为显著性目标，引入了深度信息来改进注意力矩阵，显著性分支的深度增强注意力公式如下：
$$
A_{sd}=A_m\cdot A_m+A_m\cdot D
$$
为了防止显著性目标被分类为背景，设计了背景分支的深度增强注意力，其计算公式如下：
$$
A_{bd}=(1-A_m)\cdot (1-A_m)+(1-A_m)\cdot D
$$
这两个处理有三个好处：首先，当深度图的值很小的时候，注意力机制仍然可以正常工作，因为第一项都与深度图无关；其次，深度图没有前景和背景之间的语义区分，因此在进行分割时可能会引入噪声和干扰，但是使用了DEDA进行处理之后，第二项可以限制D只优化前景或者只优化背景，因此可以保持前景和背景之间的高对比度；最后，在反向传播过程中，两个注意力矩阵可以获得动态的梯度，从而帮助网络学习最优参数。
通过使用自注意力机制，提出了金字塔式的特征提取模块，可以描述特征图中两个位置之间的空间依赖关系。恒等映射分支和全局平均池化层不使用注意力机制，这是为了保持最大和最小感受野下，图像所固有的属性。其余三个分支分别进行不同膨胀比例的卷积，然后借助注意力矩阵得到新的特征图，最后五个分支拼接得到输出。此外，此模型的注意力机制虽然也试图找到每两个点中间的关联，但是与之前遇到过的一种方法不同。之前是每个点生成一个通道，该通道代表了这个点和其他所有的的关联程度。而此次则是直接生成一个宽和高都为HW的巨大的矩阵，借此得到每对像素点之间的关联程度。其计算公式如下：
$$
A=softmax(R_1(Conv(F_{in}))^T\times R_1(Conv(F_{in})))
$$
其中，R1是将shape为C、H、W的矩阵变形成C、HW的矩阵。而注意力矩阵A的使用方式如下：
$$
F_{out}=F_{in}+R_2(R_1(Conv(F_{in}))\times A^T)
$$

评估方法

PR曲线，F-measure，MAE，S-measure和E-measure.

其他

SOTA：DES [7], DCMC [8],CDCP [51], DF [28], CTMF [16], PCA [2], MMCI [4], TANet [3], CPFP [46],DMRA [26].
本文通过实验指出进行通道维度拼接相比于进行像素级加和的好处是如果某个通道（depth）的质量较差，那么拼接的方法可以通过训练抑制该通道的特征响应，而不影响颜色通道的特征计算；如果使用像素级加和，那么颜色通道和深度通道会同时被抑制。