MLMNet论文笔记

引用格式

[1] Wu R , Feng M , Guan W , et al. A Mutual Learning Method for Salient Object Detection With Intertwined Multi-Supervision[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020.

研究的背景

  • 显著性预测图依然不够准确,这是目标内部的复杂性和卷积、池化操作步长引起的边界不准确共同导致的。
  • 显著性目标内部结构复杂,很难做到均匀地高亮整个目标。
  • 由于卷积、池化带来了信息的损失,导致边界附近预测不准。
  • 为了得到好的结果,以往的工作主要使用跳跃连接结构(skip-connection)或者循环递归结构(recurrent architecture)来整合语义信息和细节信息。为了解决仍然存在的边界模糊问题,前人开始引入额外的边界信息进行共同训练。
  • 以往的工作显示VGG的前三个块适合于同时捕捉边缘信息和显著性信息。因此在前三个VGG块上进行额外的边缘检测任务来帮助MLM中的前景轮廓检测任务。

使用的方法(创新点)

  • 整体思路是使用显著目标检测、前景轮廓检测、边界检测共同监督模型的训练。整个模型采用U-Net架构,使用VGG16作为骨干网络。在编码器部分,去掉pool5层之后的所有层,并将剩下的层分为6个块(pool5单独一个块),在每一个块的顶部使用MLM模块提取前景轮廓特征和显著性特征。除此之外还有EM模块去提取边界特征,EM模块和对应的组合块的所有卷积层相连。组合块和EM块之间的特征传递使用残差架构完成。在解码器部分使用深度监督思想来混合多尺度特征。

MLMNet——architecture

  • 首先,以一种交互的方式使用显著目标检测和前景轮廓检测来生成均匀的高亮显著性图,使用这二者的原因是它们都需要准确的前景检测。两者的区别在于SOD需要密集标注,更容易被目标内部的复杂结构所影响,使得结果内部出现不均匀的亮点;而后者的结果是从低级特征中提取出来的,因此对内部特征更鲁棒,但是更容易被轮廓附近的特征所影响。为了实现上述目标,作者提出了新颖的相互学习模块(mutual learning module,MLM),作为一个功能模块(比如残差模块),来为模型提供服务(提升SOD和前景轮廓检测的性能)。每个MLM由多个网络分支构成,并且采用相互学习的方式进行训练。MLM来源于DML方法,DML针对同一个任务,有多个学生网络,在原有的监督基础上,各个学生网络的预测输出会被作为互相的次级监督,每个学生网络都是一个完整模型,可以独立工作。在MLM中使用L2距离损失代替了DML中的KL散度,此外每个学生网络实际上就是三个连续的卷积层。MLM的输入是各个block的输出特征图,通过MLM的各个学生网络可以生成不同的预测结果,从而实现各种监督——浅层的三个block进行前景轮廓监督,深层的三个block进行显著性监督。

MLMNet——MLM_module

  • 其次,前景轮廓检测和边界检测互相指导彼此的训练,从而实现了精准的轮廓检测,并同时降低了边界预测的局部噪声。在EM模块中,它的输入包含了对应的block中所有层的特征,一个VGG块的每个卷积层的输出都连接到其它卷积层的输出,用以融合多层次特征,生成边界概率图。每个EM模块都会生成一个边界概率图,这个图会被整合成最后的边界预测图,此外每个EM模块也会通过残差结构将边界特征图传递给MLM模块,促进MLM模块中的前景轮廓检测任务的进行。边界概率图是送入sigmoid的边界特征图。EM模块的输入是两张不同的图片,分别来自边界数据集和显著性数据集,EM的输出是经过激活的边界概率图(来自于边界数据集)和未经过激活的边界特征图(来自显著性数据集),前者将与其他两个EM模块的输出拼接得到最后的边界预测图,后者将被经过处理后送入MLM模块,促进前景轮廓任务的执行。

MLMNet——EM_module

  • 最后使用交替监督的方式进行训练。在MLM中,浅三层进行前景轮廓监督,深三层进行显著性监督。类似的,在解码器的五个block中,0、2、4块进行显著性监督,1、3块进行前景轮廓监督。高级语义信息在前景轮廓的监督下筛除了内部的噪声,并且使得轮廓特征更清晰;而前景轮廓特征在显著性检测监督下为轮廓的内部填充均匀的显著性分数。每一个解码器的block的任务是融合前一个block的特征和对应的MLM模块的特征。这样交替监督的训练方法生成了具有均匀高亮的显著性预测,并且保持了较好的前景轮廓。
  • 整个模型的loss分为编码器loss和解码器loss,编码器loss又分为显著性loss,边界loss和MLMloss三部分。其中显著性loss,边界loss和解码器loss均使用BCEloss,MLMloss使用MSEloss。

研究的成就

  • 使用SOD、前景轮廓检测任务共同学习的方法训练模型来得到更准确地显著区域结果。
  • 使用前景轮廓检测和边界检测任务共同学习的方法生成更准确的前景轮廓并降低边界检测的噪声。
  • 设计了新颖的MLM模块,可以更好地利用三个任务之间的联系,并得到更好的结果。

评估方法

  • PR曲线,F-measure,MAE和S-measure.

其他

  • 一些SOTA模型:DCL,DSS,Amulet,SRM,DGRL,RAS,PAGE,BMPM,R3Net,HRS,BANet,BASNet,PAGRN,MLMS,ICNet,CPD等。

  • 整合层次特征:

    1. 跳跃连接(skip-connection):HED,DSS,SRM。
    2. 循环递归结构(recurrent architecture):RFCN,RCL,DHS
  • 利用边界信息(edge、boundary、contour):deep edge-aware saliency detection将二分类变成显著目标,边缘,背景三类。

  • 待看参考文献:S. He and N. Pugeault. Deep saliency: What is learnt by a

deep network about saliency? abs/1801.04261, 2018.