U2Net论文笔记

引用格式

[1] Qin X , Zhang Z , Huang C , et al. U2-Net: Going deeper with nested U-structure for salient object detection[J]. Pattern Recognition, 2020, 106:107404.

研究的背景

  1. 以往的工作都使用在ImageNet上为图像分类而训练的backbone作为特征提取器。

  2. 以往的SOD模型过于复杂,一部分是因为添加了额外的特征聚合模块来从backbone中提取多级特征,一部分是因为现有的backbone通常通过牺牲高分辨率来换取更深的网络结构。

  3. 当前工作集中于多级特征集成和多尺度特征提取两个任务。

  4. 局部和全局特征都很重要,小核滤波在浅层无法捕捉全局特征,因此为了获取全局特征,最直接的想法就是在深层扩大感受野(例如使用空洞卷积),但是多次的空洞卷积代价太大。

    convolution_blocks

使用的方法(创新点)

  1. 设计了两级嵌套U型架构的新模型——U2Net。该模型无需使用预训练网络作为backbone,而是从头开始进行训练。在底层,新颖的RSU块可以在不降低特征分辨率的同时提取阶段内的多尺度特征;在顶层,有一个类似U-Net的结构,它的每一个阶段都由RSU块进行填充。外层的U-Net架构由11个阶段组成,每个阶段的RSU都可以更有效地提取阶段内的多尺度特征并进行更高效的聚合。

    architecture

  2. 提出了残差U型模块(RSU),该模块可以混合不同大小的感受野以从不同尺度捕获更多的上下文信息,此外该模块中使用了池化操作,在不增加计算成本的前提下增加了整个架构的深度。该模块由三部分组成:一个普通卷积层,用于提取局部特征并将通道数改为$C_{out}$;一个用于提取多尺度特征的类似U-Net的结构;一个将多尺度特征和局部特征融合的残差结构。

    RSU

  3. 模型的总loss是6个side loss和一个fuse loss的加权和。

评估方法

  • PR,F-measure,MAE,weighted F-measure,S-measure,relax boundary F-measure.

其他

  • 除了提高performance,也可考虑构建从零开始训练的轻量级模型。
  • 这篇论文的related work可以作为一个简单的综述整理一遍。