AMPNet论文笔记
AMPNet论文笔记
引用格式
[1] Sun L , Chen Z , Wu Q , et al. AMPNet: Average-and Max-Pool Networks for Salient Object Detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, PP(99):1-1.
研究的背景
- 非显著区域被误识别为显著目标,是因为多级卷积特征中包含冗余信息。
- 检测到的显著目标往往不完整,缺乏局部细节。
使用的方法(创新点)
整体结构
我们提出了平均——最大池化网络(AMPNet),利用平均池化模块与最大池化模块,分别在空间和通道维度上整合多级、互补的上下文特征,并采用深度监督机制,得到精细的显著性预测结果。整个模型分为四个阶段:自底向上阶段,平均——最大池化阶段(池化模块在这里),自顶向下阶段(两条路径在这里),特征融合阶段。
自底向上阶段
采用了魔改的VGG16模型(将最后的全连接层替换成卷积层)作为骨干网络,用于学习并提取多尺度特征。骨干网络共有6个卷积块,与之前工作不同的是,本模型没有从最大池化之后的结果提取特征,而是从最后一个卷积层的结果提取特征,目的是为了保留更多的空间结构和边界细节信息。
平均——最大池化阶段
平均池化模块由一个平均池化层,一个具有四个平行层的并行卷积块以及一个通道转换卷积层组成。具有四个尺度卷积核的并行卷积块被用于编码多尺度空间结构上下文并扩大感受野;使用小尺寸的卷积核可以很好地保留特征细节,而大尺寸的卷积核可以很好地抑制噪声。尽管卷积核的尺寸不同,但是由于步长均为1,且配以不同的padding,四层的输出结果具有相同的尺寸,直接在channel维度进行拼接之后送入最后的卷积层即可。最大池化模块由一个最大池化层,一个精细化改进卷积块(就是卷积层的堆叠,可以看作VGG块的延续)以及两个通道转换卷积层组成。最大池化模块是串行结构,这是为了提高检测特征的鲁棒性。
自顶向下阶段
引入了两种自顶向下的反馈路径:使用最大池化的路径和使用平均池化的路径,在图中分别用绿色和橙色表示。对于提取出的最高层的特征,会被直接使用,其余层的特征会使用上一层特征的上采样和本层特征进行channel维度的拼接,最后进行upconv操作。具体公式如下所示:
$$
D^i_T=
\begin{cases}
T^i, & \text{if $i$=5} \\
UpConv(cat(T^i,Up(D^{i+1}_T,T^i))), & \text{if $i$=1,2,3,4}
\end{cases}
$$
其中,T如果是A则代表平均池化路径,T如果是M则代表最大池化路径,Up是双线性插值上采样,UpConv是三个连续的卷积层,目的是为了增强拼接后特征的鲁棒性。特征融合阶段
仅仅只是对平均池化特征和最大池化特征进行像素级的加和,然后将通道数压缩为1,接着上采样到输入图片的尺寸作为输出。此外,平均池化、最大池化、融合特征三部分分别有五个输出,将他们分类之后分别进行统一尺度,通道维度拼接和两次卷积得到三个输出,这三个输出也要计算loss。
深度监督机制
如上一节所述,除了五个层次的输出需要进行监督,还有最后分类融合之后的结果需要监督,故而总的loss一共有6个部分,它们的加权和就是整个模型的损失函数。
研究的成就
- 提出了AMPNet,整合空间维度和通道维度的互补信息。
- 设计了自顶向下路径,用高维特征进行指导(类似全局引导流)。
评估方法
- PR曲线,F-measure,MAE和S-measure.
其他
NLDF,RFCN,Multi-scale interactive
network for salient object detection,R3net,Detect globally, refifine locally: A novel approach to
saliency detection,Non-local deep features for salient object detection要看
本文总结了一些bottom-up pathway和top-down pathway(跳跃连接,渐进连接,二者混合)的相关工作。