FCN论文笔记

引用格式

[1]Evan Shelhamer,Jonathan Long,Trevor Darrell.Fully Convolutional Networks for Semantic Segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):640-651

概述

  • 成就:证明了端到端,像素到像素的训练方式下的卷积神经网络超过了现有语义分割方向最先进的技术
  • 思想:使用全卷积网络,输入任意尺寸图像,输出一样尺寸的图像
  • 方法:将当前分类网络改成全卷积网络,然后进行微调,用跳跃连接结构将全局信息和局部信息结合,互补。
  • 结果:FCN超过了state-of-the-arts

研究的背景

  • 全连接网络固定了输入的尺寸和维度,丢失了二维图片大量的空间信息。
  • 全连接网络的无法输出图像。
  • 全连接网络的参数太多,太耗时间和运算。
  • 以往的方法效率低,而且需要前期或者后期处理。
  • 全局信息解决了”是什么”,局部信息解决了“在哪里”,但是以往的方法语义和位置信息不可兼得。

研究的灵感

全连接的网络可以被看做一个卷积核是和图片同样大的尺寸的卷积网络。(特殊到一般)

研究的成就

  • 三个创新点
  • 实现了dense-prediction,即对每个像素做分类预测
  • 证明了端到端,像素到像素的训练方式下的卷积神经网络超过了现有语义分割方向最先进的技术
  • FCN成为了PASCAL VOC最好的分割方法,比2011和2012分割算法的MIoU提高了近20%
  • 显著的降低了运算量和参数数量(卷积层替代全连接层实现了参数共享)
  • 保留了空间信息(输入的图片不必被压缩成一维向量,这就保留了像素之间的二维空间信息)
  • 可以输入任意尺寸图片并且可以输出相应尺寸的图片作为结果

使用的方法(创新点)

  • 将分类网络(VGG、AlexNet、GoogleNet等)改编成为全卷积网络,其中全连接层转化成了卷积层,上采样操作通过反卷积实现。
  • 使用迁移学习的方法,在预训练网络的基础上进行了微调。
  • 使用了跳跃连接结构使得网络深层的全局信息(是什么)和网络浅层的局部信息(在哪里)相结合,产生准确且精细的分割。其中,深层特征帮助浅层特征更好地定位,浅层特征帮助深层特征更好地完善细节(精细化)。

训练的trick

  • 加载预训练模型
  • 初始化反卷积的参数
  • 至少要175epoch
  • 学习率在100轮之后再进行调整
  • 不必进行2s和4s,因为出现了负反馈
  • minibatch为20,优化器是SGD+0.9动量,学习率是10^-3^,10^-4^,5^-5^,使用了Dropout。

评估方法

  • pixel accuracy
  • mean accuracy
  • mean IU:计算真实值和预测值两个集合的交集和并集之比
  • frequency weighted IU

总结

将全卷积分类网络应用到分割任务中,并且将不同分辨率的层相互融合(上采样之后融合),显著地提高了最先进的研究水平,同时化简并加速了模型的学习和推理。

FCN模型卷积阶段

FCN模型跳跃连接阶段

FCN与CNN对比