EGNet论文笔记

引用格式

[1] Zhao J , JJ Liu, Fan D P , et al. EGNet: Edge Guidance Network for Salient Object Detection[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2020.

研究的背景

  • 人工选取特征有时可以定位最突出的物体,但当前景和背景之间的对比度不充分时,分割方法是不可取和不可靠的,因而产生了不规则形状的显著图。
  • 目前性能较好的解决目标静态检测问题的网络大多是以FCN(全卷积神经网络)为基础的,但是这些方法目前在显著性目标与其边缘的区分方面仍存在问题(例如目标边缘粗糙)。例如有些方法忽略了边缘信息和显著性目标信息的相关性;还有一些方法使用超像素的预处理或条件随机场的后处理解决边缘信息问题但是推理速度很慢。

研究的灵感

  • 基于FCN方法的显著性检测任务(分割也有是类似的)由于是像素级的判别,缺少结构信息,导致显著性目标检测的边界不够精确。这种像素级的SOD方法相比区域级的方法有了很大的提升,但是他们忽略了图像的空间相关性,之前的工作大多是通过融合多尺度信息或者使用CRF等后处理来解决这个问题。
  • NLDF提出了引入IOU损失来影响边缘周围位置的梯度,但是也没有注意到显著边缘检测和显著目标检测之间的互补性。因此考虑引入边缘信息作为监督,将边缘信息和显著性目标检测任务共同学习,并且互相特征复用、优势互补,能够取得更好的效果。

使用的方法(创新点)

  • 三步法:第一步采用渐进融合的方法,基于U-Net提取多分辨率显著目标特征;第二步通过整合局部边缘信息和全局位置信息,得到显著边缘特征;第三步,为了充分利用这些互补特征,使用一对一的引导模块将相同的显著边缘特征和显著目标特征在不同分辨率下结合。

EGNet

  • 整体来看,以VGG作为主干网络,删去三个全连接层又添了三个卷积(因此才有conv6-3)。接着如DSS一般每个卷积块引出一个侧链,其中conv1-2感受野太小,因此丢弃此条侧链,还有五条。其中用较浅层的conv2-2的侧链提取边缘特征,其他用于提取显著目标特征。

  • 显著目标特征:PSFEM( Progressive salient object features extraction)。采用可以产生多尺度特征的U-Net架构,但是每个侧链要通过三个卷积层(以及ReLU)来获取更鲁棒的显著目标特征。接着通过单核卷积生成单通道预测结果。然后像DHS一般采用深度监督思想监督每一条侧链,此为显著目标监督(PSFEM中的紫色箭头)。

  • 显著边缘特征:NLSEM(Non-local salient edge features extraction)。由于要获得显著的边缘特征,仅靠局部信息是不够的,还需要高级语义信息或位置信息;因此有与PoolNet类似的目标:减轻自顶向下过程中高级语义信息和位置信息的稀释,且能充分利用最顶层的感受野最大,位置信息最充分的特性。于是将conv6-3的特征通过三层卷积增强后送入NLSEM,进行卷积改变通道数,然后激活,上采样到和conv2-2的特征相同的尺寸,再和conv2-2的特征相加,最后送入卷积得到显著边缘特征图。此外增加了一个额外的显著边缘监督(MLSEM中的绿色剪头)。

  • 一对一的导向模块:O2OGM。在自底向上的融合过程中,一样存在显著边缘特征被稀释的问题,其解决方案依然是增加侧链。将显著边缘特征送入每一个侧链的侧链,将经过卷积增强之后的显著目标特征进行卷积改变通道数,然后激活,上采样到和显著边缘特征尺寸相同的大小,进行像素级别的加和。与PSFEM类似的,同样进行三次卷积增强特征,然后进行单核卷积将多通道特征图转换成单通道预测图。此外,对于这些增强之后的融合特征也需要进行深度监督。最后将四条侧链的单通道预测图融合,并同样计算loss。

研究的成就

  • 着重研究了显著边缘信息和显著目标信息之间的互补性,提出EGNet,采用三步法实现了两种互补信息在单个网络中的同步建模,更好地区分了边界。
  • EGNet通过让这两个互补的任务相互帮助,同时优化这两个任务,让预测结果更加好。(和PoolNet一样,亦是多任务)

评估方法

  • PR曲线和F-measure,MAE以及S-measure