Residual Learning for Salient Object Detection
Residual Learning for Salient Object Detection
引用格式
[1] Feng M , Lu H , Yu Y . Residual Learning for Salient Object Detection[J]. IEEE Transactions on Image Processing, 2020, 29:4696-4708.
研究的背景
很难直接学到富有判别力的特征和卷积核。
尺度变换会引入错误或者冗余的值。
使用的方法(创新点)
提出新的模型——$R^2Net$。不直接预测显著性图,而是预测显著性图和gt之间的残差。模型有三个部分组成:R-VGG模块,DCPP模块,以及Residual模块。其中R-VGG模块没有什么创新,就是简单的编码器。
膨胀卷积金字塔池化(Dilated Convolutional Pyramid Pooling ,DCPP)。用于生成粗糙预测。考虑到R-VGG提取出的最高层特征图是28的分辨率,为了获取全局信息,在kernel_size=3的时候最大膨胀率应当为13——3+(3-1)*(13-1)=27。同时为了获取局部信息,还要有低膨胀率的膨胀卷积,于是DCPP设置了四个平行分支,膨胀率分别为1,5,9,13,然后进行拼接,再使用1$\times$1卷积进行特征的融合,并改变通道数,最后送入残差模块部分即可。
注意力残差模块(Attentional Residual Modules ,ARMs)。用于学习粗糙预测和gt之间的残差,其motivation是残差比精准预测要好学习。每个ARM模块的输入有三个:DCPP产生的粗糙预测图的rescale,前一个ARM模块产生的残差的上采样,已经对应尺度的R-VGG块的特征图。ARMs分为两种:拼接注意力和截断注意力。拼接注意力类似我们一般的注意力,但是仍旧对边界不敏感,因此,截断注意力的目的就是为了更关注边界像素。截断注意力主要思想是使用显著性图和翻转的显著性图进行像素级乘法,其motivation在于假设对于显著性图有前景部分概率0.9,背景部分概率0.1,边缘部分0.5,那么其翻转则是0.1,0.9,0.5。分别相乘变为0.09,0.09,0.25。这显然抑制了确定的区域,而更关注不确定的边界部分。之前的翻转是通过进行“1-显著性图”实现的,但是对于当前scale来说,这种对上采样显著性图的翻转操作缺少细节,因此作者使用“1-当前尺度gt”作为新gt来学习这个翻转的显著性图。
评估方法
- PR、maximum F-measure、MAE、S-measure。