PiCANet论文笔记

引用格式

[1] Liu N , Han J , Yang M H . PiCANet: Learning Pixel-wise Contextual Attention for Saliency Detection[J]. 2017.

研究的背景

  • 上下文信息对显著性目标检测很重要,但是对于一个上下文区域来说,不是所有上下文信息都是对我们的任务有意义的;因此希望可以学会有选择地关注每个像素的上下文位置。
  • SOD的最终目标是建模人类的视觉注意力机制,并借此检测最突出的区域或目标。
  • 基于FCN的SOD模型中,有两种手段。第一种是从每个输入图像的区域提取上下文特征,第二种是从每个图像位置对应的感受野提取特征。但是这两种手段都会将每个上下文位置的信息整合起来,整体进行利用。

研究的灵感

  • 许多工作将上下文区域的所有位置的视觉信息聚合成一个上下文特征来进行推断对比,但是其中不是所有信息都是有益的,一些相关区域的信息是有用的,其他的一些噪声不应该被提取。

使用的方法(创新点)

  • PiCANet为每个像素生成一个注意力图,其中每个注意力权重对应于每个上下文位置同该像素的相关性,接着就可以有选择地聚合上下文信息,构造一个加入了上下文信息的特征。

PiCANet——attention-map

  • 为了整合具有不同范围的上下文,将模型分为全局和局部两种形式。上图(b)中显示的是学习到的全局注意力,它可以关注前景对象的背景或者背景中的前景物体,与全局对比机制相符合。上图(c)中显示的是学习到的局部注意力,它可以关注给定像素局部上下文中与给定像素表现相似的区域。下图(a)描述了全局PiCANet,先横向进行双向LSTM,合并(torch.cat),再纵向进行双向LSTM,再次合并。此阶段合并了全局上下文。接着用卷积层将图像转化成[W*H,W,H],每个channel是一个像素对全局的注意力图,然后使用softmax函数进行归一化,即可得到最终的注意力权重。接下来加权求和即可得结果(代码里不是求和,就是每个对应一点)。下图(c)描述了局部PiCANet,其他与全局类似,只是最开始只通过多层卷积让感受野符合我们的要求。

PiCANet——global-local

  • 将局部和全局PiCANet分层嵌入U-Net(编码解码结构,具有跳跃连接)。

PiCANet

研究的成就

  • 提出了新的PiCANet来选择性地关注全局或局部上下文,并为每个像素构建富含信息的上下文特征。
  • 以一种分层的方式来检测显著的对象,解码器中在多尺度的特征图上分别使用全局和局部PiCANet,使得模型可以获得从全局到局部,从粗糙到精细的加入上下文的特征。

评估方法

  • PR曲线和F-measure以及MAE