BANet论文笔记
BANet论文笔记
引用格式
[1] Su J , Li J , Zhang Y , et al. Selectivity or Invariance: Boundary-aware Salient Object Detection[C]// 2018.
研究的背景
- SOD是诸多计算机视觉任务(如目标识别,目标追踪等)的前置步骤。
- 大的显著目标内部可能会有大的外观改变,使得显著目标很难被检测为一个整体。
- 显著目标的边界可能会非常微弱,以至于不能区分显著目标和周围的背景。
- SOD模型在处理物体的内部和边界的时候面临着对立的需求,这就是选择性-不变性困境(selectivity-invariance dilemma):内部的特征应不随强烈的外观变化而变化,其目的是为了将整个目标划分为一个整体(即使是强烈的外观改变也不影响我们对目标整体的判断,不会一个整体被判断为两个部分);而边缘特征应尽量对外观变化(即使是轻微的)有选择性(区分性),其目的是为了区分显著目标和背景(即使背景和显著目标之间只有轻微的外观改变我们也能将其分割为背景和目标)。
使用的方法(创新点)
- 首先使用ResNet-50提取普通的视觉特征,只使用五个残差模块,后面的全局池化和全连接层都被舍弃。其中第四、五个模块的卷积步长设置为1,目的是为了防止过下采样。
- 通过加入一个边界定位流(boundary localization stream)增强了边界特征的选择性。该模块使用多尺度特征(显著边缘检测既需要高级的语义信息,也需要低级的细节边缘信息)和一个简单网络来检测具有高选择性的显著目标边界,生成选择性置信图(selectivity confidence map)。输入是ResNet的五个侧向输出经上采样之后的拼接结果,对于这五个侧向输出分别使用128核的3x3卷积以及一核的1x1卷积这两个卷积层来压缩普通特征,然后通过上采样得到与图像同样大小的结果,接着进行拼接,最后使用一核的1x1卷积并用sigmoid激活得到选择性置信图。
- 通过加入一个复杂内部感知流(complex interior perception stream)保证了内部特征的不变性。使用单尺度特征和一个复杂网络来保证显著目标内部特征的不变性,生成不变性置信图(invariance confidence map)。输入是ResNet的第五个模块的结果,使用集成连续扩张模块进行处理,得到的结果进行上采样和sigmoid激活,最终生成不变性置信图。
- 通过加入一个过渡补偿流(transition compensation stream)修正内部和边界之间的过渡区域可能发生的失败(不变性和选择性都不能很好地分割背景和目标),在过渡区域中,特征需要实现从不变性到选择性的渐变。输入是蕴含高维语义信息的第五模块的侧向输出以及蕴含低维边缘信息的第二模块的侧向输出的像素级加和,这样可以提高过渡区域的特征的表示能力。将第五模块的输出上采样到第二模块输出的尺寸,然后使用集成连续扩张模块生成调节好选择性——不变性的过渡特征表示图。
- 这三个流分别强调了选择性,不变性和他们的权衡,因此直接使用简单的像素级加和会引入不可预期的噪声,因此作者提出了一种特征镶嵌方法来融合三者。运算符号代表两个矩阵之间的元素级乘积,M是特征镶嵌图。第一部分强调具有高选择性低不变性置信度的边界特征,第二部分强调具有高不变性和低选择性置信度的内部特征,第三部分强调的是不变性和选择性的置信度都中等的特征。最终,整个模型的总loss有三个部分:边界交叉熵损失函数,内部交叉熵损失函数,以及最后的过渡交叉熵损失函数。
- 通过加入一个集成连续扩张模块(integrated successive dilation module)来增强内部和过渡区域特征的不变性。第一层使用1x1的卷积来压缩通道,第二层使用2的次方的比例的空洞卷积,并添加分支内部和分支间的短连接,这样做可以使的每个分支都能感知到不同大小的局部上下文信息,整个ISD模块能够在一个连续的尺度上汇集上下文信息。第三四层使用1x1的卷积来整合特征。
研究的成就
- 从选择性-不变性困境的角度重新审视了SOD的问题,提供了新的思路。
- 提出了新颖的边界感知网络。
- 提出了一个可以提高提取不变性特征能力的模块——integrated successive dilation module(ISD)。
评估方法
- PR曲线,F-measure,MAE以及weighted F-measure
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 DreamTomb!