BASNet论文笔记
BASNet论文笔记
引用格式
[1] Qin X , Zhang Z , Huang C , et al. BASNet: Boundary-Aware Salient Object Detection[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019.
研究的背景
- 人类视觉系统有一个有效的注意力机制,它可以从视觉场景中挑选出最重要的信息,计算机视觉通过两个研究分支来建模这种机制:人眼注视点预测和显著目标检测。
- 以往的SOD模型大多关注区域的准确性而非边界的质量。
- 为了更准确地进行显著目标检测,有两个挑战是我们需要面临的。第一点是显著性主要定义在整个图像的全局对比上,而不是局部或像素级特征。为了获得准确的结果,所显著性检测方法必须了解整个图像的全局信息以及显著性目标的详细细节。为了解决这个问题,需要模型能够聚合多层次特征。
- 第二点是大多数显著目标检测方法都使用交叉熵(CE)作为其训练损失。但采用CE损失训练的模型在区分边界像素方面的置信度较低,导致边界模糊。其他损失,如交并比(IoU)、f-measure和Dice-score损失是为了有偏差的训练集而提出的,但它们不是专门为捕获精细的细节而设计的。
使用的方法(创新点)
- 提出了预测-改进架构——BASNet,由一个深度监督的编码-解码网络和一个残差改进模块构成,二者通过捕捉全局粗糙上下文和局部精细上下文分别负责显著性预测和显著性图的改进(精细化)。
- 预测模块采用类似U-Net的架构,这种编码-解码网络可以同时捕捉高层次全局上下文和低层次局部上下文。为了缓解过拟合,还采取了深度监督的思想,用gt对加解码器的每层的输出进行监督。编码器中的层都是残差模块,下采样方法是最大池化,解码器中的层都是普通的卷积模块,上采样方式是双线性插值。解码器中每一层的输入都是前一层的上采样和对应的编码器中层的输出拼接而成的特征图。最后一个特征图将作为预测模块的输出被传送至改进模块中。
- 改进模块,也是采用编码-解码架构,采用了短链和对最终输出的监督。该模块之所以采用残差为名,不是因为使用了残差模块,而是因为该模块的输出在理论上是gt和coarse map的差,也就是说,该模块的输出与预测模块的粗糙输出相加才是最终结果。
为了得到高置信度的显著性预测图和清晰的边界,提出了针对边界感知SOD的新型混合损失函数,它混合了二元交叉熵(BCE)、结构相似度(SSIM)、交并比(IoU),并指导网络在三个层次(像素级,区块级,特征图级)上学习从输入图像到ground truth的变换。如图所示,一共有八个监督,因此最终的损失函数是八个损失的加权和:
$$
L=\sum_{n=1}^{8}{a_n*l^{(n)}}
$$且每个损失又有三个成分:
$$
l^{n}=l^{n}{bce}+l^{n}{ssim}+l^{n}_{iou}
$$其中,BCE是像素级的度量,SSIM是一种区块级的度量,IoU是特征图级的度量,将三者混合起来,利用BCE使每个像素都有平滑的梯度,利用IoU给予显著目标更多注意力,通过SSIM基于图像结构使得边界的loss更大
- 混合损失函数没有显式地使用边界损失(像NLDF和C2S),而是隐式地在其中注入了清晰预测边界的目标,目的是为了减少交叉传播从边界和其他区域学习到的信息时带来的误差。
研究的成就
- 提出了新型的预测-改进架构——BASNet。
- 提出了针对边界感知SOD的新型混合损失函数。
评估方法
- PR曲线,F-measure,MAE以及weighted F-measure
- 消融实验(每个组件)+对比实验(定量+定性)
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 DreamTomb!