2022-9-19论文笔记
论文笔记
《Cascaded Partial Decoder for Fast and Accurate Salient Object Detection》
提出了级联部分解码器框架,该框架丢弃了低层特征以降低深度聚合模型的复杂性,并利用生成的相对精确的注意力图来细化高层特征以提高性能。
由于整个网络的浅两层捕捉更多的是细节信息,深两层捕捉更多的是语义信息,所以选择第三层作为分界点。在第三层之后分出两个分支,一个是注意力分支,一个是显著性分支,前者使用深三层特征送入部分解码器,生成初始显著性图,此图送入整体注意力模块,获得增强的注意力矩阵。该注意力矩阵被送入显著性分支帮助精细化第三层的特征,这样的方式可以帮助去除原来第三层特征中的干扰信息,但同时,如果干扰信息被分类为显著性区域,那么也会极大地影响分割结果,于是就有了整体注意力模块。其公式如下:
$$
S_h=MAX\left(f_{min_max}\left(Conv_g\left(S_i,k\right)\right),S_i\right)
$$部分解码器模块就是魔改的RFB模块。
《CAGNet: Content-Aware Guidance for Salient Object Detection》
提出了CAGNet来使前景背景更容易被区分,抑制非显著性区域的显著性外观,并为显著性区域的不同外观的子区域分配同样的标签。整个网络分为三个部分:特征提取网络(FEN),特征引导网络(FGN),特征融合网络(FFN),网络的结构示意图如下图所示。
提出了多尺度特征提取模块(Multi-scale Feature Extraction Module ,MFEM),使用全局卷积网络GCNs(用于解决空洞卷积造成的网格效应),允许每一级别的网络获取多尺度上下文信息。
提出了特征引导网络。高级特征在低级特征的引导下可以让显著性区域和非显著性区域更加容易区分,解决“非显著性区域拥有显著性特征”的问题;低级特征在高级特征的引导下可以产生更引人注意的特征,解决“显著性区域中不同外观的子区域标签不一致”的问题。该模块的思想本质就是将高级特征和低级特征进行拼接,然后通过卷积等操作产生通道权重和空间权重。
设计了新的特征融合网络。在该部分中,作者设计了一个新的融合模块—— Residual Refifinement Module ,即RRM模块,模块的结构示意图如下图所示。该模块同时使用了注意力和残差学习的思想,中间的支路是残差学习,左侧的支路是注意力。
设计了一个新的损失函数,它比交叉熵更优秀。
$$
L=\alpha_1L_p+\alpha_2L_R+\alpha_3L_{MAE}
$$
《Effective Fusion Factor in FPN for Tiny Object Detection》
作者发现在小目标检测中,随着深层向浅层传递信息的增加,模型的性能是先增加后减少的。于是作者将融合因子定义为FPN中相邻两层特征融合时较浅层的加权系数,这篇论文的主要工作就是研究如何找到一个合适的融合因子。
作者使用四种方式生成融合因子:暴力列举法,损失函数优化学习法,自注意力模块生成法,以及统计信息计算法。暴力法不合适,注意力法计算量大,学习法的表现不如暴力法,而统计法的表现很好而且没有增加推理时的计算量。
作者认为不同的层能够检测到的目标数目是不同的,这就导致不同层的训练样本数量不同,不同层对参数更新的贡献不同。因此作者认为对于那些训练样本多的层,应该分配一个小的权重,来保证各层对模型参数更新的贡献大致相同。
融合因子的数学解释。下图以C4作为例子,当使用较大的权重时,其将获得更多用于浅层检测任务的信息,当使用较小的权重时,其将获得更多用于深层检测任务的信息。
《Progressive Self-Guided Loss for Salient Object Detection》
模型的核心思想是将SOD模型的训练过程分解为几个步骤。对于每一个步骤,该模型都会提供一些可行的训练目标,以降低训练难度。因此,它的输出可以在这逐步的训练中被逐步优化。具体而言,在当前网络预测中应用模拟形态学闭合操作,可以去除前景物体内部的小孔,减少错误检测区域,生成新的辅助训练监督作为整体损失函数的一部分。更重要的是,这些新创建的训练目标随着网络预测的逐步优化而不断细化,可以为训练过程提供持续正确的指导。因此,SOD模型可以通过这些渐进式监督来逐步突出更完整的显著目标。
提出了新的多尺度特征聚合模块MS-FAM,通过分支级的注意力机制来捕捉并自适应地聚合它们。MS-FAM使用了空洞卷积,inception模块,注意力机制以及残差学习,并被放置于侧向连接中进行多尺度特征融合。
提出了新的损失函数——渐进式自引导损失(progressive self-guided loss,PSG Loss),通过在模型预测上模拟形态学闭合操作(先对模型的预测图进行膨胀操作,然后进行腐蚀操作),来逐步创建辅助训练监督,逐步地引导训练过程。为了避免全0的显著性预测导致的PSG loss的零梯度问题,PSG loss只能作为一个辅助loss,需要配合一个正常的loss,二者的加权和组成模型的整体loss,辅助loss和正常loss选取的损失函数相同,都是BCE loss+Dice loss,只是计算loss的对象分别是预测和gt以及预测和处理之后的预测。考虑到膨胀和腐蚀操作的速度很慢,因此使用最大池化操作代替膨胀操作,并使用膨胀之后的预测图和gt进行取交集操作来近似代替腐蚀操作。这种取交集操作有两个优点:首先保证了$SM_{pgt} \subseteq SM_{gt}$,其次这种操作总是可以基于当前预测产生更好的结果,并且该结果可用于指导模型逐步探索当前预测的邻近区域。总的来说,模拟形态学操作可用如下公式表示:$f(SM_{pred} )=e(d(SM_{pred} ) )\approx maxpool(SM_{pred} )\cap SM_{gt}$,
BCE等像素级loss的缺点:首先,由于他们只考虑了标签和预测之间的像素级的差异,而没有考虑像素之间的空间关系和依赖,BCEloss不能帮助揭示显著性区域内部像素和背景像素之间的关系,因此会导致模糊的边界和显著性目标内部的一些误检测区域。其次,由于这些loss为前景像素和背景像素赋予了同样的权重,因此使得SOD变成了一个类别不平衡问题(背景像素大多数情况下远多于前景像素),这会使得训练出的模型因为标签分布的偏差而具有偏差先验,会倾向于将未知像素预测为背景,进一步会导致预测出不完整的显著性区域。
《Bifurcated Backbone Strategy for RGB-D Salient Object Detection》
设计了一个全新的级联细化网络。
使用分叉主干策略,将多层次特征重新分组为教师和学生特征,深三层是教师特征,浅三层是学生特征。作者的动机是因为发现教师特征提供的是富有判别性且没有冗余细节的语义信息,可以显著地缓解低维度特征中的干扰信息。
GCM模块是RFB模块的改进版,只是多了两个分支,可以更好地拥有全局感受野。PTM是为了渐进地增大第二阶段的解码结果,而非直接进行4倍上采样,这样可以使得结果更精细。
引入深度增强模块(depth-enhanced module,DEM),从通道和空间角度挖掘深度模态的信息线索,以更好地融合RGB特征和深度特征。该模块由一个通道注意力和一个空间注意力组成,通道注意力是将特征图的每个通道进行全局最大池化之后送入多层感知机,然后将感知机的输出作为通道权重和输入特征图相乘。空间注意力是将特征图的每个点沿着通道维度进行全局最大池化,进行卷积之后作为每个像素点的权重和输入特征图相乘。
深度模态和RGB模态的提取器并不共享权重,这是因为两种模态有着很大的差异。因此作者设计了深度适应模块来考虑两种模态的不同,使得二者可以使用同一个特征提取器而不会有很大的性能下降。