Democracy Does Matter:Comprehensive Feature Mining for Co-Salient Object Detection

引用格式

[1] Yu S , Xiao J , Zhang B , et al. Democracy Does Matter: Comprehensive Feature Mining for Co-Salient Object Detection[J]. 2022.

研究的背景

  1. CoSOD,共显著性目标检测,目标是检测出一组图像中共同存在的显著性目标,最近工作使用的注意力机制和额外信息的效果并不理想。前者一方面获取的共享特征不完整,只能覆盖到一部分内容,另一方面对于复杂场景往往关注到错误的目标区域,而后者过于依赖额外的数据集。
  2. 该工作的目标是使用民主性挖掘全面的共显著特征,并在不引入任何额外信息的情况下减少背景干扰。

使用的方法(创新点)

  1. 设计了新颖的民主共显著特征挖掘框架(Democratic Co-salient-Feature-Mining framework,DCFM),其结构如下图所示。

    architecture

  2. 设计了民主原型生成模块( democratic prototype generation module,DPG),目的是为了生成民主的响应图,作为最终预测的指导。它可以覆盖足够的共显著区域,因此生成的原型包含了完整的共享属性,可以用于引导预测。DPG由三个部分组成:残差块(residual block)——用于增强提取到的特征,种子选择块(seed selection block,SSB)——用于为每张图片中的共显著性目标选择最富有判别力的种子,民主响应块 (democratic response block,DRB)——将选择好的种子和增强特征图相关联,生成响应图,最后,将响应图与增强特征相乘并进行平均,生成原型(包含全面的共显著性特征信息,指导后续预测)。

    SSB_DRB

  3. 设计了自对比学习模块(self-contrastive learning module,SCL),目的是为了抑制原型中背景信息的噪声,其中正负对的生成都不依赖于额外的分类信息。将提取的特征分别和label以及1-lable相乘,得到前景和背景对应区域的特征,然后分别计算他们和原型的余弦相似度,我们希望原型和前景区域特征的余弦相似度大,和背景区域特征的余弦相似度小。

  4. 设计了民主特征增强模块( democratic feature enhancement module,DFE),目的是为了通过调整注意力值来进一步增强共显著性特征。经观察发现,注意力机制总是趋向于关注有限数目的相关像素,无法包含所有共显著性目标,因此试图放大小的正值来将更多像素纳入考虑,而负的注意力值则无需考虑。整体流程是以原型和响应图作为注意力矩阵,分别和增强特征相乘再相加,得到融合特征,然后将此特征送入DFE做类似自注意力的操作得到最后的特征。

    DFE

  5. 总的loss是IOU_loss和SC_loss(自对比)之和

评估方法

  • MAE,F-measure,E-measure,S-measure曲线等