DHSNet论文笔记
DHSNet论文笔记
引用格式
[1]Liu N, Han J. Dhsnet: Deep hierarchical saliency network for salient object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 678-686.
研究的背景
- 传统SOD模型的缺点是要手动提取特征,来制定对比和各种先验知识,再人工把他们组合,效果好坏全靠人的经验。
- 传统方法靠显著性线索(文中列举了两类)。以对比为例子,目标是评估每个图片区域或图像像素相对于全局或局部上下文的独特性。其中局部对比法常关注物体边界而忽略了物体内部,全局对比法可以得到物体均匀地内部。但是全局对比法难以保全物体细节,且难以检测大目标和具有复杂纹理的目标,尤其是前景与背景很相似或背景很凌乱的时候。此外,全局对比方法最大的缺点是:通常靠手工提取的特征和人类设计的机制去构造对比,效果的好坏全部取决于人类有限的视觉注意力方面的知识。因此在不同场景表现不一,泛化能力差。
- 以三个先验为例(背景先验,紧凑先验,物体先验)。这两类的缺点都是靠经验靠人。此外,传统方法还会组合线索,但现有的组合方法(简单组合机制或浅层学习模型如CRF)难以发掘不同线索之间的深层联系,且为了保存细节使用的OP和过分割的缺点是费时间,效率低。
- 为了解决需要靠人类经验提取特征,运算速度慢,无法发掘线索间深层联系。发明了第一阶段。在第一阶段中,首先对全局视觉使用CNN,去粗略的检测和定位目标。好处是可以自动学习特征表示和各种全局的显著性线索以及它们的最优组合。
- 为了解决生成的显著性图太粗糙的问题(因为运算中损失了诸如物体边界的细节信息)。发明了第二阶段。在第二阶段中,接着使用HRCNN结合局部上下文,进一步改进显著性图。
研究的灵感
前人的工作同样使用了“渐进地改善显著性图的细节”的思想,但是使用的方法是deconvolution和unpooling。
前人工作的缺陷:没有优先考虑全局上下文,然后将局部区域分开进行处理,这样使得不同区域间的潜在联系没有被发掘。于是模型无法学到足够的全局信息。
使用的方法(创新点)
- 使用GV-CNN
使用VGG提取图像的深度特征。13个conv+4个pooling+1个FC+1个reshape。
- 使用HRCNN
只有GV-CNN是不够的:池化层丢弃了一些空间信息,而且全连接层参数的数量随着SMG尺寸的扩大而线性增长,使得训练很难,所以只能选择小尺寸的SMG,因此SMG的图像细节(比如物体边界和细微结构)无法满足要求。于是有了HRCNN。
VGG中某一组操作的结果进行1x1的卷积(64个kernel),然后sigmoid激活,和上采样后(SMG不用上采样)的显著性图叠加(变成[65,W,H])然后在进行RCL。用64个的1x1的激活函数为sigmoid的卷积层对VGG的特征图进行卷积的目的一方面是为了减少了feature map的数量,以至于可以减小计算量;另一方面是使用sigmoid可以将两张图都压缩到[0,1],使两张图的影响力相当。对[65,W,H]使用RCL之后进行1x1卷积,sigmoid激活,得到最终的显著性图。
- 采用了深度监督的思想:将ground-truth从224到28变化,去监督每一步的学习。
卷积神经网络有一些问题:
1)中间隐藏层不透明;
2)早期阶段学习到的特征的辨别力和稳健性影响很大;
3)存在梯度消失,梯度爆炸,难以收敛等问题。
此外作者观察到提取的特征的区分能力越强,那分类器的性能就越好;因此作者试图使用深度监督思想,也就是在深度神经网络的某些中间隐藏层加了一个辅助的分类器(例如SVM或Softmax等)作为一种网络分支来对主干网络进行监督的技巧,例如本文中在每一个中间层添加了伴随目标函数。
1)这样的辅助loss可以起到一种类似正则化的效果;
2)可以用来解决深度神经网络训练梯度消失和收敛速度过慢等问题;
3)此外,这种辅助的分支分类器能够起到一种判断隐藏层特征图质量好坏的作用,方便网络提取出区分力更强的特征。
- 使用RCL
当T=0的时候会保存一个input为iT0,然后T=1到T=3进行3次卷积,每次卷积的输入会用到iT0和上一次的卷积的输入iTn-1的和(纯粹意义上的和),结果得到iTn,iT0的值是不变的。
研究的成就
本文的工作:建立了端到端的深层次显著性网络,这是一种两阶段模型。第一阶段:自动学习各种全局结构的显著性线索,生成粗糙的全局预测。第二阶段:使用层次递归卷积神经网络,通过一步步地整合局部上下文信息,更层次化地,更渐进地改进显著性图的细节。它输入图片和groun-truth,输出显著性图。
提出了端到端的显著性检测模型——DHSNet,它可以同时学习有效的特征表示、信息显著性线索、从全局视角学习它们最优的组合机制,然后可以学习如何改进显著图细节。DHSNet将全卷积分类网络应用到分割任务中,并且将不同分辨率的层相互融合(上采样之后融合),显著地提高了最先进的研究水平,同时化简并加速了模型的学习和推理。
提出了层次化改进模型——HRCNN,可以在不使用过分割的情况下,结合局部上下文层次化的,渐进的改进显著图,来恢复图片细节。它也可以被用于其他像素到像素的任务。HRCNN中使用的RCLs增强了模型整合上下文信息的能力,还限制了参数的数量。
提出了未来的四个方向:建立有意义的特征表示;同时开发所有显著性线索;找到最佳的线索整合策略;高效的保护细节信息。
评估方法
- PR和F-measure