Strip Pooling Rethinking Spatial Pooling for Scene Parsing

研究的背景

  1. 在像素级预测任务中,空间池化被证明在捕捉长距离上下文信息时是十分有效的。
  2. 提升模型建模长距离依赖的方法有许多:自注意力,非局部模块,但是它们的计算量都太大了;还有空洞卷积,全局池化,金字塔池化,但是它们都使用方形窗口探查输入特征图,在应对多种形态的目标时不够灵活(比如观察柱状物体时会将方形窗口的其他部分的特征引入,形成信息污染)。

使用的方法(创新点)

  1. 借鉴空间分离卷积的思想,将N$\times$N池化也分离为1$\times$N和N$\times$1池化。这有两个好处:首先,可以捕捉孤立区域的长距离关联;其次,狭窄的核可以在捕捉局部上下文的同时防止不相关区域的信息造成污染。以此为创新点,构建了新的模型——SPNet。

  2. 引入了一个新的条状池化模块(Strip Pooling Module,SPM),使得骨干网络可以有效地建模长距离依赖。具体来说,SPM有两条路径,分别关注水平和竖直的空间维度,然后用这两种编码来平衡它自己的权重来进行特征修复。

    SPM

  3. 提出了一个具有多种空间池化作为核心的新的混合池化模块(Mixed Pooling module,MPM),来在高维语义级别进一步建模长距离依赖。它通过利用具有不同核形状的池化操作来收集内容丰富的上下文信息,以探查具有复杂场景的图像。

  4. 系统地对比了条状池化和传统空间池化的性能表现。

评估方法

  • mIoU,Pixel Acc。