CoNet论文笔记

引用格式

[1] Ji W , Li J , Zhang M , et al. Accurate RGB-D Salient Object Detection via Collaborative Learning[J]. 2020.

研究的背景

  1. 池化和上采样操作会模糊目标的边界,低维的特征又包含了太多的背景噪声。
  2. 使用额外的深度网络从深度图中提取深度特征会带来额外的计算和存储成本。
  3. 深度图像的空间信息可以更好地表达三维场景,借此帮助定位显著性目标。
  4. 以往的工作使用的是双流的架构,借助跨模态的融合策略分别处理RGB和深度图像,或者使用专门为深度图像设计的子网络,来为RGB表示进行补偿。在带来额外代价的同时,无法在没有深度输入的情况下使用。
  5. 在推理阶段对深度图像的依赖限制了RGB-D方法的实际应用。

使用的方法(创新点)

  1. 设计了一个新颖的协作学习网络。五个transition层跟在encoder之后是要对提取的特征进行预处理。

    architecture

  2. 设计了一个全局引导模块(GGM),应用于深三层,其目的是为了获取更丰富的全局语义并减缓解码器中高维语义信息的稀释。GGM的关键组件是GPM,即全局感知模块,其由四个平行的不同膨胀比例的空洞卷积和一个等价映射组成,借此获得丰富的全局语义。接着​每一个高层GPM的输出会和下一层的特征像素级加和,再送入这一层的GPM,这边是GGM的整体流程,通过这样的方式可以减缓高维语义的稀释。

    GGM

  3. 边界检测模块。作用是从过于丰富的低级特征中提取边缘信息,然后与显著性知识结合,共同强调显著性区域和目标边界。低两层特征经过预处理并整合之后,送入该模块。该模块输出的显著性边界会与canny提取的gt求一个loss,此外该模块学习到的特征(softmax之前)会被送入KC模块。

  4. 粗糙显著性目标检测模块。与深度估计模块合作,以经过预处理并整合的高三层特征作为输入,作用是增强提取出的高维语义特征。这里输出的粗糙显著性图会与gt求二元交叉熵,此外,该模块学习到的粗糙特征(softmax之前)会作为空间注意力传递给KC,该空间注意力跟输入的整合后的高维特征进行像素级乘法再以剩余连接形式加上该特征即可得到深度估计模块的输入。

  5. 深度估计模块。作用是将深度和显著性学习以相互促进的方式整合到高级特征的学习过程中,而不是将深度图像作为一个单独的输入。将上一步的输出进行三次卷积使得特征适用于深度估计,接着再进行一个卷积来生成用于跟深度gt求loss的特征。由过往工作可知,特征图的每一个通道都可以看做是一个特征检测器,该深度特征可以作为通道注意力,跟粗糙显著性检测模块输出的特征进行像素级乘法再以剩余连接形式加上该特征,即可得到该模块的输出。

  6. 设计了一个知识收集器(knowledge collector)。将低级融合特征和经过两次注意力的高级融合特征拼接得到新的融合特征。将边界和显著模块的特征拼接,然后卷积激活得到融合特征。前面的融合特征同深度特征做剩余连接,其结果在和后面的融合特征做剩余连接。

  7. 总的loss是边界,显著,深度,融合共四部分的加权和。

评估方法

  • PR曲线,F-measure,MAE,weighted F-measure,S-measure和E-measure.

其他

  1. SOTA: Depth-induced multi-scale recurrent attention network for saliency detection.