PoolNet论文笔记

引用格式

[1] Liu J J , Hou Q , Cheng M M , et al. A Simple Pooling-Based Design for Real-Time Salient Object Detection[C]// IEEE. IEEE, 2019.

研究的背景

  • CNN在多尺度空间提取高维语义信息和低维细节特征的能力极大地促进了SOD的发展。
  • CNN有类似金字塔的结构特征,较浅的层有更大的空间尺寸,并且可以保留丰富的细节的低层信息,较深的层则包含更多的高维语义信息,并且在定位显著性目标的时候效果更好。
  • U型结构由于其可以在分类网络中创建自顶向下的通道,并借此构建出丰富的特征图(捕捉到的语义信息多),而最受人关注。

研究的灵感

  • U型结构中高维度的语义信息被逐步传输到浅层,因此,被深层捕捉的位置信息会在过程中被逐步稀释。(U型网络中bottom-up阶段产生高级语义信息,再通过top-down阶段上采样,并与bottom-up阶段横向连接,虽然会将粗糙信息和细致信息连接起来,但同样会导致高级语义信息中的位置信息逐渐被稀释。)
  • CNN的感受野大小和层深不成比例,尤其是对于更深层次的网络,CNN的实际感受野比理论上的要小很多,以至于实际网络不足以捕捉输入图像的全局信息,导致全局上下文不足。
  • 现有的解决上述问题的方法,大致分为引入注意力机制(PiCANet),通过循环、递归的方式精炼特征图(DHSNet),结合不同尺度的特征信息以及向显著性图增加诸如边界损失(NLDF)之类的额外约束四种。

使用的方法(创新点)

  • 使用U型网络,在自底向上的过程中添加了global guidance module(GGM全局引导模块),其目的是为了给处于不同特征级别的层提供潜在显著目标的位置信息。GGM包含一个魔改版的金字塔池化模块(pyramid pooling module,PPM),以及一个全局引导流(global guiding flows,GGF)。PPM被放置在主干网络的顶部,用于获取全局引导信息(显著性目标的位置信息)。通过引入GGFs,被 PPM 收集到的高层次语义信息可以被传递到金字塔所有层次的特征图中,纠正了 U 型网络自顶向下信号逐渐被稀释的问题。

PoolNet

  • PPM由 4 个用于捕捉输入图像的上下文信息的副分支组成。第一和最后的副分支分别是一个恒等映射层(绿色)和一个全局平均池化层(红色)。对于中间的 2 个副分支,我们采用了自适应平均池化层以保证他们的输出特征图分别具有 3 × 3 与 5 × 5 的空间尺寸。池化之后通过1*1的卷积将通道数降低,接着通过双线性插值进行上采样,最后同原特征图在channel维度上进行拼接。其他工作中,往U型网络中插入多尺度上下文提取模块是比较常见的(插在encoder与decoder之间),不过文中认为这么做有个问题,也就是这种信息的强化只对接近PPM的decoder块影响较大,而在逐步上采样过程中这种强化又被稀释了。因此,本文的做法是,把这个PPM模块给单独作为一个分支,然后以恒等映射的方式将特征送回解码器的各个阶段,这样就可以缓解稀释的问题。

PoolNet——PPM

  • 使用U型网络,在自顶向下的过程中添加了feature aggregation module(FAM特征聚合模块),其目的是为了将GGFs传播的粗糙的特征图与金字塔中不同尺度的精细的特征图更好地融合。FAM将融合后的特征图作为输入,使得从GGM中获得的粗糙特征可以同各种尺度的特征无缝融合。这个模块首先将融合的特征图转换到多个特征空间,以捕捉不同尺度下局部上下文信息;之后,将融合后的信息进行组合,以更好地对融合后的输入特征图的组成部分进行加权。

PoolNet——FAM

  • FAM包含四个分支。它的输入包含三个部分:上一层的特征图的上采样,encoder中的同层次的特征图,以及来自PPM的高维特征图的上采样,三者叠加之后作为输入。将输入的特征图进行不同比例的下采样,然后进行平均池化,接着进行3x3的卷积和上采样,借此将特征图转换到不同的尺度空间,然后直接上采样,叠加到一起,最后进行3x3的卷积。FAM有两个优点:首先,有助于减小上采样产生的混叠效应;其次,其允许每个空间位置查看不同尺度空间下的局部上下文,进一步增大整个网络的感受野。我的理解是GGFs从基础网络最后得到的特征图经过金字塔池化之后需要最高是8倍上采样才能与前面的特征图融合,这样高倍数的采样确实容易引入杂质,作者就是因为这样才会提出FAM,进行特征整合,先把特征用不同倍数的下采样,池化之后,再用不同倍数的上采样,最后叠加在一起。因为单个高倍数上采样容易导致失真,所以补救措施就是高倍数上采样之后,再不同比例地下采样,再平均池化,再上采样,这样平均下来可以弥补错误。

PoolNet——FAM_res

  • 与边缘检测任务联合训练。在FAMs之后增加了3个残差模块,分别进行边缘检测任务。(这个我觉得可以重点考虑将来也进行多任务学习。)

PoolNet——joint_train

研究的成就

  • 以特征金字塔网络(FPNs)为基础,GGM和FAM两个模块将高维度的语义特征逐步改善、精细化,最后产生细节丰富的显著性图。
  • 通过端到端的训练方式联合训练我们的网络和标准边缘检测任务可以极大地增强检测到的显著目标的细节。
  • PoolNet是第一篇通过研究如何设计多样的基于池化的模块以协助提升显著性物体检测性能的文章。
  • PoolNet的速度很快,且训练迅速(5000张400*300的训练集训练时间少于6小时,这是因为对池化技术的有效利用)。

PoolNet——FPS

评估方法

  • PR曲线和F-measure,MAE以及S-measure