Bi-directional Object-Context Prioritization Learning for Saliency Ranking

引用格式

[1] Tian X , Xu K , Yang X , et al. Bi-directional Object-context Prioritization Learning for Saliency Ranking[J]. 2022.

研究的背景

  1. 显著性排名任务用于研究这样一种视觉行为:人类根据场景中物体显著性的不同而转移注意力。
  2. 现有方法都遵循基于目标的注意力,但其实人类还有空间注意力机制,在识别过程中会从一个区域移动到另一个区域。
  3. 以往的注意力机制常常强调富有鉴别力的特征同时抑制来自其他通道的特征,但是这样的手段对于显著性排序来说是不合适的,因为这些鉴别力低的特征或许在排序上有意义(比如是联系两个物体的上下文)。

使用的方法(创新点)

  1. 提出双向的基于目标上下文的优先次序学习方法。使用基于查询的目标检测方法提取全局特征,并生成一系列目标特征。然后将它们送入SOS和OCOR模块,最后学习目标的优先次序知识。

    architecture

  2. 提出了目标显著性选择模块(selective object saliency,SOS),通过推断显著性目标的语义表征来建模基于目标的注意力机制。该模块希望可以捕捉和增强显著目标的语义表征,以往的工作显示了深度特征的不同通道对不同的语义成分有响应,因此要对channel维度做研究。基于背景3,先要使用全局协方差池化来学习物体表示以及他们跟局部和全局上下文的关联,其次学习了一组动态校正函数,基于高阶特征统计量的计算来对通道重新分配注意力。这样该模块就可以学习到细粒度的目标特征表示。在全局协方差池化中,对上下文特征使用ROIAlign提取目标特征,然后将目标特征沿通道维度分割([C,H,W]的特征变成W$\times$H个C维的特征),最后通过如下公式计算协方差归一化矩阵及其全局协方差池化:
    $$
    \mathcal M=\left(\frac{1}{K}\sum_{k=1}^{K}\left(\mathcal F_{obj}^k-\mu\right) \left(\mathcal F_{obj}^k-\mu\right)^T\right)^\alpha
    $$

    $$
    S_C=\mathcal{GCP}(\mathcal{M_C})=\frac{1}{C}\sum_{c=1}^C\mathcal{M_C},其中\mathcal{S}=[S_1,S2,\cdots,S_C]就是通道维度的高阶统计量。
    $$

    接着,通过如下方式实现对特征的校正即可。

    equation

    sos

  3. 提出目标上下文目标关联模块(object-context-object relation,OCOR),通过同时建模目标-上下文和上下文-目标交互来确定显著性排名。将SOS模块产生的N个对象特征分别和上下文特征进行拼接,得到一系列的对象-上下文关系。在此基础上,使用线性投影来计算不同对象-上下文关系之间的远程相互作用。

    ocor

  4. 最后就是学习显著性排名。这是一个多阶段的基于查询的检测过程,其优点在于框、查询对象以及对应的目标特征可以逐阶段的改善。每个阶段又分为三个子任务。

评估方法

  • SOR,SA-SOR,MAE等

其他

  • Md Amirul Islam, Mahmoud Kalash, and Neil DB Bruce. Revisiting salient object detection: Simultaneous detection, ranking, and subitizing of multiple salient objects. In CVPR, 2018.
  • Nian Liu, Long Li, Wangbo Zhao, Junwei Han, and Ling Shao. Instance-level relative saliency ranking with graph reasoning. TPAMI, 2021.
  • Avishek Siris, Jianbo Jiao, Gary KL Tam, Xianghua Xie, and Rynson WH Lau. Inferring attention shift ranks of objects for image saliency. In CVPR, 2020.