2022-10-24论文笔记
论文笔记
《Deep Texture-Aware Features for Camouflaged Object Detection》
TANet通过构建多个纹理感知细化模块,学习深度卷积神经网络中的纹理感知特征,来放大伪装目标与背景之间的细微纹理差异,用于伪装目标检测。纹理感知细化模块计算特征响应的协方差矩阵以提取纹理信息,此外作者还设计一个亲和力损失学习一组参数,有助于分离伪装目标和背景之间的纹理,并采用边界一致性损失来探索目标的细节结构。
挪用了残差细化模块(residual refine blocks,RRB)对不同层次的特征图进行细化,增强细节,去除背景噪声。
设计了纹理感知细化模块(texture-aware refinement module,TARM)来放大伪装物体与背景之间的纹理差异,从而显著增强了伪装物体的识别能力。先用多个1$\times$1卷积获得多种特征图,这些特征图会在后面的操作中逐步学习纹理的不同方面。接着计算每个位置的不同通道间的协方差矩阵,通过该矩阵捕捉卷积特征之间的关联(如特征的组合、共现等),具体操作是将某个位置的C维向量和其转置相乘,由于其具备对角对称性,所以只需要上三角部分来表示纹理特征即可。然后将所有协方差矩阵拼接、卷积,再通过两组3$\times$3卷积获得两组不同的参数图——$\gamma,\beta$。这两组参数被用于扩大伪装目标和背景的纹理差异,具体公式如下:
$$
f_{out}=conv(\gamma\frac{f_{in}^{‘}-\mu(f_{in}^{‘})}{\sigma(f_{in}^{‘})}+\beta)+f_{in}
$$
其中$f_{in}^{‘},\mu,\sigma$分别代表卷积后的输入图、其均值、其方差。设计了类同损失(Affinity loss)来放大纹理特征的差异,促进两组参数更好地捕捉差异。首先将参数图进行下采样,计算类同矩阵,需要借助向量相乘。然后将GT下采样,再次计算类同矩阵,需要借助相同与否的指示函数。两者的计算公式如下图。然后通过加权的减法获得最终的类同loss。
设计了边界一致性损失( boundary-consistency loss)来增强跨边界的细节信息,而在测试中没有额外的计算开销。其将图像划分为多个图像块,当图像块内包含不同类别的像素时,选中这些图像块,不执行下采样操作,因为高分辨率的参数图有利于为边界提供更详细的信息,然后再计算patch内部的类同损失。其计算公式如下图。
《Mutual Graph Learning for Camouflaged Object Detection》
设计了新颖的交互图学习模型(Mutual Graph Learning,MGL),它将传统的相互学习的思想从规则网格推广到图域。具体来说,MGL将一幅图像解耦为两个特定于任务的特征图——一个用于粗略地定位目标,另一个用于准确地捕捉其边界细节——并通过图循环地推理它们的高阶关系,使两者充分地相互促进。整个MGL分为三个阶段:多任务特征提取模块(Multi-Task Feature Extraction,MTFE),区域诱导图推理模块(Region-Induced Graph Reasoning,RIGR),边界压缩图推理模块(Edge-Constricted Graph Reasoning,ECGR)。
区域诱导图推理模块(Region-Induced Graph Reasoning,RIGR)。该模块的目标是推理出COD和COEE之间的语义关系,而不考虑细节。通过图投影操作将两个特征图转换为用边和点描述的语义图——具有相似特征的像素形成了图中的顶点,而边则衡量了两个顶点之间的密切程度。接着使用跨图交互模块(Cross-Graph Interaction,CGI)捕捉两个语义图之间的高级依赖关系,并将COD语义图中的顶点转换成COEE语义图中的顶点。然后通过图卷积进行图推理获得更好的图表示,最后将图表示反向投影回原始坐标空间。
图投影。首先将特征图$F_C,F_E$[h,w,c]降维到[hw,c]变成二维矩阵,然后引入两个参数矩阵$W,\Sigma$[K,c]来进行投影操作。其中$W$的每一列$w_k$都是一个节点的可学习的聚类中心,$\sigma_k$则是$\Sigma$的列,$v_k$则是第k个节点的表示,同时也是节点特征矩阵的第k列。然后通过下图中的公式将特征图投影为节点。接着通过衡量节点之间的密切关系(Affinity)来计算其邻接矩阵(理解为边的长度),其计算公式为:$A^{intra}=f_{norm}(V^T\times V)$。
跨图交互。用于指导信息从COD图传播到COEE图。先使用多层感知机将COEE的特征图转换成query,将COD的特征图转换成key和value。接着可以计算出相似性矩阵$A^{inter}$,并且通过相似性矩阵可以将COD的特征图转换成COEE的特征图。
图推理。输入上一步获得的COEE的顶点图和COD的顶点图,进行图卷积完成图推理操作得到增强的图表示,其公式如下图。
图重投影。这个模块就是逆着进行图投影操作,将特征映射回原来的域中。
边界压缩图推理模块(Edge-Constricted Graph Reasoning,ECGR)。在分析空间关系之前,会先将特征图送入边缘分类器获得伪装目标的边界图。此外通过拼接两个重投影之后的特征图获得新的特征图来进行COD,然后通过边界支持图卷积(Edge Supportive Graph Convolution,ESG-Conv)来编码边界信息并在上述边界图的引导下增强拼接后的新特征图来更好地定位目标。最后,将增强后的特征图送福分类器获得最终结果。