Pyramid Grafting Network for One-Stage High Resolution Saliency Detection

引用格式

[1] Xie C , Xia C , Ma M , et al. Pyramid Grafting Network for One-Stage High Resolution Saliency Detection[J]. 2022.

研究的背景

网络的采样深度和感受野之间的矛盾导致为低分辨率输入设计的模型在高分辨率图片上表现一般。此矛盾在于当前多数SOD模型基于编码-解码器架构设计，当输入图像的分辨率增加时，捕获的特征的尺寸也在增加，但由网络决定的模型感受野的大小是固定的，因此可能会无法捕捉全局语义，这是很致命的。
多阶段高分辨率SOD方法：HRSOD和DHQSOD。
transformer可以获得更准确的全局语义信息，CNN可以获得更丰富的细节信息。

使用的方法（创新点）

提出金字塔移植网络(pyramid grafting network，PGNet)。使用transformer和CNN骨干网络从不同分辨率图像中独立地提取特征，然后将特征信息从transformer分支移植到CNN分支。整个网络分为三个阶段：swin-transformer解码阶段、移植特征解码阶段和Resnet解码阶段。
设计了基于注意力的跨模态移植模块(Cross-Model Grafting Module，CMGM)，使CNN分支可以在解码的过程中，在不同源特征的引导下，更完整地结合碎片化的细节信息。在上图中可以看到，swin的输入尺寸经过了缩小，而S2和R5的尺寸相近，因此在这两个阶段使用CMGM。transformer拥有捕获远距离信息的能力，所以它可以捕获全局语义信息；相反的，CNN在提取局部信息时表现出色。现有的特征融合策略在两种特征都正确或者一个正确一个错误的情况下可以起作用，但是对于两个特征都错误时便无法起效，CMGM便解决了这个问题。其并没有进行像素级加和或乘积亦或拼接，而是重新计算了两个特征之间的像素级的关系，然后再将全局语义信息移植到resnet分支来弥补两种特征共同的错误。模型使用错误图来描述预测结果犯的错，其为gt和预测图之差的绝对值(因此错误图每个像素的值都在0-1之间)，CMGM的有效性也可以通过下图说明。具体而言，先将R5和S2打平到[1，c，H$\times$W]，然后分别进行layer normalization和linear projection，最后矩阵相乘、softmax激活、矩阵相乘、linear projection、卷积即可得到输出。此外Cross Attention Matrix(CAM)由第一次矩阵乘法的结果进行图中的处理获得。
设计了注意力引导损失( Attention Guided Loss，AGL)来明确地监督CMGM生成的注意力矩阵，以此来帮助网络更好地同来自不同模型的注意力进行交互。该loss的目标是让CAM与gt生成的注意力矩阵尽量相似，这是因为显著性特征应该具有较高的相似性。具体来说，先将显著性图打平成行向量和列向量，然后将两个向量进行向量乘法得到注意力矩阵。模型需要从gt、S2的显著性预测图、R5的显著性预测图分别获得一个注意力矩阵$G^a,SP^a,RP^a$，然后可以通过下述公式获得AG loss：
$$
\ell_{AG}=\frac{\sum_{i=1}^{H}\sum_{j=1}^{W}(1+\beta\omega_{ij})\cdot\ell_{bce}(G^a_{ij},CAM_{ij})}{\sum_{i=1}^{H}\sum_{j=1}^{W}(1+\beta\omega_{ij})}
$$

$$
\omega_{ij}=\frac{1}{2}(\mid(G^a_{ij}-RP^a_{ij})\mid+\mid(G^a_{ij}-SP^a_{ij})\mid)+1
$$

其中$\beta$是一个用于调整$\omega$影响的超参数，该权重有两个目的：通过加权缓解被矩阵乘法平方倍放大的正负样本的不均衡问题；以及使网络更关注两个特征共同的错误。最终总的loss定义如下，其中b+i意味着bce loss加iou loss，auxiliary意味着对RP和SP做loss：
$$
\ell_{total}=\ell^P_{b+i}+\ell_{AG}+\frac{1}{8}\ell^{auxiliary}_{b+i}
$$

评估方法

F-measure，MAE，S-measure，E-measure，BDE等