论文笔记

《Cascade Graph Neural Networks for RGB-D Salient Object Detection》

  1. 提出了级联图神经网络(CAS-GNN),可以通过一组级联图全面地提取和推理这两个数据源之间的相互作用,以学习RGB-D SOD的强大表示。CAS-GNN分别处理这两个数据源,并采用一种新的级联图推理(CGR)模块来学习强大的密集特征嵌入,从中可以很容易地推断出显著性图。与以前的方法相比,对互补数据源之间的高级关系的明确建模和推理使我们能够更好地克服诸如遮挡和歧义之类的挑战。

    CAS_GNN

  2. CAS-GNN包含多个图,每个图都被用于处理一个特定级别的跨模态推理。每一个图都包含两种基础类型的节点:几何节点储存了深度特征,外观节点储存了RGB相关特征。每条边连接两种节点:同一模态不同尺度的节点或者不同模态但是同一尺度的节点。此外,为了增强对多级特征的推理能力,作者将前面的图合并为下面的级联图的两个域特定的引导节点。因此,整个模型共有三种类型的节点。

    CMR

    对于多尺度节点嵌入。使用金字塔池化模块PPM、一个卷积层和一个插值层来提取两个模态的多尺度特征,作为初始的节点表示,如下图a所示,外观节点和几何节点都是这样处理。

    对于边的嵌入。终点的特征图减起点的特征图进行卷积,即可得到起点与终点的高维联系。又因为是有向图网络,因此两个点之间的双向路径分别代表起点和终点之间双向的高维联系。

    对于信息传递。在GNN模型中,每个节点要整合其所有邻接节点的特征信息。其公式被定义为:
    $$
    m^{ (t) }{k,l}=\sum{k\in N(l) }M(V^{ (t-1) }k,E^{ (t-1) }{k,l} )=\sum_{k\in N(l) }sigmoid(E^{ (t-1) }{k,l} ) \cdot V^{ (t-1) }k
    $$
    对于节点状态更新。使用 Gated Recurrent Unit来更新节点的状态,其公式被定义为:
    $$
    V^{ (t) }
    {l}=\sum
    {k\in N(l) }F_{update}(V^{ (t-1) }l,m^{ (t-1) }{k,l} )=\sum_{k\in N(l) }U_{GRU}(V^{ (t-1) }l,m^{ (t-1) }{k,l} )
    $$
    对于显著性读出。将每个模态的节点嵌入插值到统一尺寸,然后进行拼接和卷积,得到两个模态各自的嵌入表示。两个模态的嵌入表示通过一次拼接和两个卷积映射到了显著性分数,最后将其通过插值变为需要的尺寸即可

    embeddings

  3. 网络级联技术。CAS-GNN使用网络级联技术,将前一张图的嵌入表示作为下一张级联图的域特定的引导节点。

    关于引导节点。不同于几何节点和外观节点,引导节点只传递引导信息并在信息传播过程中保持固定。具体操作是将前一张图的同一模态的所有节点拼接起来然后使用卷积进行融合,融合的结果作为引导节点,如下图a所示。

    关于级联信息传播。每个引导节点通过注意力机制(通过全局平均池化和sigmoid函数获得)向下一张图中的同一模态的所有节点传播引导信息。如下图b所示。

    关于多级特征融合。每一次迭代产生的嵌入表示都被送到最后,通过像素级的加和或者通道级的拼接进行融合。

    propagation

《Hierarchical Alternate Interaction Network for RGB-D Salient Object Detection》

  1. 提出了层次交替交互网络( Hierarchical Alternate Interactions Network,HAINet)。它由特征编码,跨模态交替交互,显著性推断三个阶段组成。

    HAINet

  2. 特征编码阶段由两个编码分支组成,一个用于编码深度特征,一个用于编码RGB特征,他们的backbone都是VGG16。显著性推断阶段与特征编码阶段相反。

  3. 设计了层次化交替交互模块。之前的工作中,特征交互使用像素级乘法,像素级加法,或者拼接加注意力等方式。但是无论哪种方式都没有尝试去过滤掉深度图中的噪声,作者对此做出了改进。首先使用RGB特征过滤深度特征中的干扰信息,然后过滤之后的深度特征被用于增强RGB特征,这样的调整-反馈机制被实现于交替相互作用单元( Alternate Interaction Unit,AIU)中。作者构造了层次化的结构来使用AIU,前一个AIU的输出会参与到下一个AIU的调整-反馈机制之中,这样的层次化结构被称为渐进融合。此外作者还设计了自适应特征重加权操作来进一步筛选特征并保留最有价值的信息。

    RGB特征和深度特征分别使用膨胀比例为1,3,5,7的空洞卷积,得到四个分支。每个分支都有一个AIU模块,该模块中包含许多通道注意力和空间注意力。来自RGB的特征通过通道注意力进行增强,然后再使用空间注意力进行增强,增强之后的RGB特征作为权重矩阵与深度特征进行相乘,借此来过滤掉深度图中的噪声干扰。接着将过滤之后的深度特征与原深度特征相加,实现对比增强。接着重复上面的操作,对过滤之后的深度特征进行增强,并与RGB特征相乘得到将被输出AIU的混合特征,该特征会被加和到下一个分支的RGB特征之中。接着,将四个分支的所有输出特征进行通道级的拼接得到最终的混合特征。在特征重加权模块中,通过使用自适应的通道注意力以及像素级加和进一步对特征进行了筛选。

  4. 混合loss。在训练阶段,使用BCE loss和IOU loss的和作为混合loss,它们一个关注像素级损失,一个关注图像级损失,互为补充。此外使用了深度监督的思想,对每个尺度的预测都计算了混合loss。