PFANet论文笔记
PFANet论文笔记
引用格式
[1] Zhao T , Wu X . Pyramid Feature Attention Network for Saliency detection[J]. 2019.
研究的背景
在以往的工作中,来自不同层的特征总是被无差别地整合在一起,然而不同的特征图或者同一图中不同的特征显然在SOD中扮演了不同的角色。
深层包含全局上下文关注信息,适合用于定位显著性区域,浅层包含空间结构细节,适合用于定位边界。
为了解决不同特征对显著性检测贡献不同却被用同样方式处理的问题,以往的工作提出了注意力模型和门函数。
使用的方法(创新点)
提出了PFANet,用于增强高维度的上下文特征和低维度的空间结构特征。
提出了上下文感知的金字塔特征提取模块(CPFE),让高维度特征图可以捕捉丰富的上下文特征——多尺度、多感受野、高维度的特征。该模块以VGG16中深三层的特征图 作为输入,使用三个不同膨胀率的空洞卷积以及一个1x1的卷积层来捕捉多感受野的上下文信息。接着将四个结果统一到最大尺度(下图红色),然后在channel维度进行拼接。最后将三个结果再次统一到最大尺度(下图中为64x64x32x4),并在channel维度进行拼接,即可得到CPFE的输出。
提出了channel维度的注意力模块(CA)和空间注意力模块(SA),分别应用到CPFE特征图和低维度特征图,然后进行混合来检测显著性区域。CA负责选择合适的尺度和感受野来生成显著性区域——在训练过程中,CA分配各不同的权重给不同的channel。SA负责更好地找到有效的低维度特征——只有显著性区域和背景之间的边界是有效的。由前人的工作可知:CNN中特征的不同通道会对不同的语义产生响应,CA的作用就是为对显著性区域产生响应的通道赋予更大的权重。我们还知道一张图片中会有复杂的背景和前景的细节,而其中只有显著性目标和背景之间的边界是对我们有意义的,SA的作用就是筛除掉无用的细节信息减少干扰。SA中为了增大感受野的同时不增加参数,使用了前人的分部卷积的方法。
提出了边界保留损失函数,来获得精确的显著性区域边界。一般SOD的loss使用的是gt和输出之间的交叉熵,本文做了进一步的改进:首先使用拉普拉斯算子获得gt和输出的边界,然后再对二者计算交叉熵损失。模型的总损失函数是正常交叉熵和边界交叉熵的加权和。
研究的成就
提出了PFANet,用于增强高维度的上下文特征和低维度的空间结构特征。对于高维特征,使用CPFE和CA来捕捉丰富的上下文信息,对于低维特征,使用SA来过滤掉噪声细节特征(如背景中的细节特征)。
设计了新颖的边界保留损失函数来指导网络的训练,使得网络可以学习到更多的边界相关的细节信息。
评估方法
- PR曲线,F-measure,MAE.
其他
X. Zhang, T. Wang, J. Qi, H. Lu, and G. Wang. Progressive attention guided recurrent network for salient object detection
L. Zhang, J. Dai, H. Lu, Y. He, and G. Wang. A bi-directional
message passing model for salient object detection.