F3Net Fusion, Feedback and Focus for Salient Object Detection
F3Net Fusion, Feedback and Focus for Salient Object Detection
研究的背景
- 常用的特征融合策略比如加和、拼接,忽视了特征间存在着巨大的差异。
- 对于高精度SOD来说还有两个挑战:首先,不同级别的特征有不同的分布特征,高维特征有丰富的语义,但是失去了准确的位置信息,低维特征有丰富的细节,但是充满了背景噪声,如果不精细地控制信息流就会导致噪声或模糊边界的引入,使得性能下降。其次,大多现有方法都使用二元交叉熵作为loss,这是在平等的对待每个像素,但是从直觉上来说,边缘像素应该更富有判别性,应当被赋予更大的权重。
- BCEloss有三个缺点:首先,只关注了像素,没有关注全局结构;其次,图像中的背景占据主导,前景像素会被稀释;最后,它平等的对待每一个像素。
使用的方法(创新点)
提出了新的模型——F3Net,其结构如下图所示:
设计了交叉特征模块(cross feature module ,CFM),其动机是为了消除特征之间的不一致。为了有选择性地聚合多级特征,它没有进行传统的拼接或者加和,而是自适应地选择互补的内容来进行融合,这样可以避免引入太多的冗余信息。CFM通过特征交叉来缓解两种特征之间的差异,并修复两种特征。首先通过像素级乘法获取高级特征和低级特征共有的部分,然后将结果与原始的高级特征和低级特征进行加和,这样的操作可以抑制背景噪声并锐化边界,可以看作是高级特征和低级特征进行了互补的学习。
设计了级联反馈解码器(cascaded feedback decoder ,CFD),其动机是因为高维特征在传播中会有信息损失和信息失真。它使用多阶段的反馈机制,将接近监督的特征引入前一层的输出中来补充它们并消除不同特征之间的差异。直接将最后一个CFM输出的特征图下采样之后跟每一层的特征图相加来修复它们。然后用同样的方式迭代数次来产生令人满意的结果。
设计了像素位置感知loss(pixel position aware ,PPA)。它没有像二元交叉熵一样平等的对待每一个像素,它可以综合像素的局部结构信息来引导网络更关注局部细节,边界像素或者易出错像素会得到更多关注。PPA由加权BCE和加权IoU组成。每个CFD都进行一次监督,每一层也会进行一次监督。
评估方法
- PR,MAE,F-measure,S-measure,E-measure。
其他
- 以往工作表明:低维特征带来了更多的计算代价,但是带来的性能提升却很少。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 DreamTomb!