论文笔记

《Zoom In and Out: A Mixed-scale Triplet Network for Camouflaged Object Detection》

  1. 提出了混合尺度的三联网络——ZoomNet,它模仿人类在观察模糊图像时的行为,即放大和缩小。具体而言,ZoomNet采用缩放策略,通过精心设计的尺度整合单元和层次化混合尺度单元学习具有判别力的混合尺度语义,充分挖掘候选对象与背景环境之间的细微线索。此外,考虑到难以区分的纹理带来的不确定性和模糊性,构造了一个简单而有效的正则化约束——不确定性感知loss,以促进模型在候选区域准确地产生更高置信度的预测。

    ZoomNet

    SIU

    HMU

《Learning Calibrated Medical Image Segmentation via Multi-rater Agreement Modeling》

  1. 在医学图像分割中往往会有多位评分者进行标注,如果只用其中一位的标注进行训练那么在其他标注上进行测试的效果就会比较差。以往的工作中通常采用的多数投票法或者首选评分法,但是这两种方法都忽略了多评估者注释中异同点中包含的的丰富信息。为了解决这个问题,作者提出了两阶段的模型——MRNet来明确地建模多评估者一致(不一致)信息。

    MRNet

  2. 设计了专家感知推理模块(expertise-aware inferring module,EIM)。该模块将独立评分者的专业水平作为先验知识嵌入,来生成高维语义特征。专业性向量作为权重,用于计算soft GT,其计算公式为:$GT^{soft}=\sum_{k=1}^NS_iV_i$。在每个迭代中,专业性向量交替使用三种方法进行设置:统一权重的多数投票模式、一个权重为1其余权重为0的单一投票模式、随机(总和为1)模式。作者认为这样的交替策略可以使得模型学习到个体评分者对最终软预测的影响。

  3. 设计了多评分者重建模块,使得该模型能够从粗糙的预测中重建多评分者评分,并进一步利用多评分者一致(不一致)线索来提高分割性能。作为第二阶段的第一个模块,以粗糙预测和输入图片的拼接作为输入,试图重构每个评分者给出的GT。这里首先使用BCEloss作为重构loss来衡量真实GT和重构GT的相似度;然后使用了L2loss作为一致性loss来衡量粗糙预测和soft GT提取出的特征的一致性。最后使用多个评分者gt的像素级标准差来估计评分不一致性的不确定性图,用于精细化粗糙预测,其公式如下所示:
    $$
    U_{map}=\sqrt{\frac{1}{N}\sum_{i=1}^{N}(S_i-\frac{1}{N}\sum_{i=1}^{N}S_i)^2}
    $$

  4. 设计了多评分者感知模块,这个模块基于不确定性图,使用多分支软注意力机制进一步精细化分割结果。使用不确定性图要解决的一个关键问题是如果不确定性图本身有错或者不完整,那就回导致模型效果变差,因此作者使用了软注意力机制——旨在扩大不确定区域的覆盖范围,从而有效地感知和捕捉多个评分者之间的不一致性线索。这个soft体现在两个方面,首先,其操作被定义为:$Soft(U_{map})=\Omega_{max}(F_{Gauss}(U_{map},k),U_{map})$,其中F是使用高斯卷积核(标准差可学习)的卷积操作,作者使用卷积结果和原不确定性图中较大的那一个作为软不确定性图;其次,没有直接将不确定性图和原特征图相乘作为结果,而是将soft之后的不确定性图与原特征图相乘再相加。

  5. 总的损失函数是重构loss+一致性loss+粗糙预测loss+最终预测loss。

《Detecting Camouflflaged Object in Frequency Domain》

  1. 作者认为COD任务的目标不仅是在一个单一的RGB领域中模仿人类的视觉能力,而且应当超越人类的生物视觉。于是就引入频域作为一个额外的线索,以更好地从背景中检测伪装的物体。模型的整体架构如下所示:

    architecture

  2. 设计了频率增强模块(frequency enhancement module,FEM)来挖掘频率域中伪装目标的线索。

    使用DCT(离散余弦变换)处理RGB图像。先将RGB图像划分成一组8$\times$8的patch,$p_{i,j}^c\in R^{8\times 8}$表示某个颜色通道的patch,通过DCT处理变为频谱$d_{i,j}^c\in R^{8\times 8}$,其中每个值对应于特定频带的强度。为了将相同频率的所有分量组合到一个通道中,作者进行了如下操作:$x_o^{freq}=x_{i,j}^{freq}=flatten(d_{i,j})$,这样就可以让每个通道都属于一个频带。图像也就从颜色域转换到了频域。

    在线可学习增强。实际图像中存在各种伪装对象和复杂背景,固定的DCT可能无法很好地处理这一点,因此还需要一个自适应的学习过程来适应复杂的场景。此外,信息在预处理过程中会丢失,因此需要加强频域信号。综合上述两点,作者引入了在线可学习增强来提高信号的适应性。首先增强单个patch:将信号降采样并分成低频信号和高频信号两个部分,然后分别送入两个多头自注意力模块捕捉局部相关性,再将输出进行拼接,再次送入一个多头自注意力模块捕捉全局相关性。其次寻找patch之间的关联:将上一部分的输出reshape之后送入多头自注意力模块,将输出reshape并上采样即可得到增强的结果。

    特征对齐。现在有了频域特征和颜色域特征,就要想办法融合二者,在这之前,要将特征进行对齐。作者观察到高频特征中的差异有助于找到伪装目标,于是设计了一个覆盖高频带的二进制基础滤波器以及三个针对Y、Cb、Cr空间的可学习滤波器。滤波操作是频率响应和组合滤波器$f_{base}+\sigma(f_i)$之间的像素级点积,其中$\sigma(y)=\frac{1-exp(-y)}{1+exp(-y)}$。于是寻找重要频域信息的公式如下所示:$X_i^{freq}=x_i^{freq}\odot [f_{base}+\sigma(f_i)]$。最后将三个通道的滤波结果进行拼接即可完成滤波过程。将滤波结果和空间域特征图进行拼接、卷积,输出通道为4n的矩阵,分成$T^1,T^2,T^3,T^4$,通过矩阵相乘得到空间域转换矩阵和频率域转换矩阵:$T_1=T^1(T^2)^T,T_2=T^3(T^4)^T$。借助转换矩阵以及可学习的用于调整通道强度的向量v,可以得到每个域的对齐特征表示:$X_{rgb2s}^i=T_1X^i\otimes v_{rgb}^i,X_{freq2s}^i=T_2X^{freq}\otimes v_{freq}^i$。最后将这两个特征加和即可得到融合特征。

    FEM

  3. 设计了高维关系模块(high-order relation module,HOR)来进一步充分地利用频域信息。想要从背景中分离出真实的伪装目标和干扰物体,需要发现细微的差异——因为伪装目标和干扰物体往往在各方面都很相似。这些细微的差异需要捕捉高阶关系才能发现。首先对原始特征进行位置重要性编码,其公式为:$W=softmax(X^T\Phi(X))$,其中$\Phi(X)$表示比X高一些的层,这样可以利用其更大的感受野以及增强多尺度学习的表示。接着用全连接层生成新的权重并对原始特征进行增强:$A=g(W)\cdot (WX^T)+X$,最后再次和高层特征相乘:$H=softmax(A^T\Phi(X))$,即可得到被送入解码器的特征。

    HOR

  4. 模型的loss是12个loss的加权和,它们包括4个解码器预测和GT的IoU loss,4个解码器预测和GT的BCE loss,还有4个FA预测和GT的频域感知loss。且这个权重为$2^{1-i}$。

  5. 【1】Zequn Qin, Pengyi Zhang, Fei Wu, and Xi Li. Fcanet: Frequency channel attention networks. CoRR, abs/2012.11879,2020.

    【2】Kai Xu, Minghai Qin, Fei Sun, Yuhao Wang, Yen-Kuang Chen, and Fengbo Ren. Learning in the frequency domain.In CVPR, pages 1737–1746, 2020.