SAMNet Stereoscopically Attentive Multi-scale Network for Lightweight Salient Object Detection
SAMNet Stereoscopically Attentive Multi-scale Network for Lightweight Salient Object Detection
引用格式
[1] Liu Y , Zhang X Y , Bian J W , et al. SAMNet: Stereoscopically Attentive Multi-Scale Network for Lightweight Salient Object Detection[J]. IEEE Transactions on Image Processing, 2021, PP(99):1-1.
研究的背景
- SOD模型的效果在提升,但是模型越来越大,不易于部署在移动设备上面。
- SOD同时需要高维语义信息和低维细节信息,因此直接使用类似MobileNet和ShuffleNet的轻量级网络作为backbone是不合适的。
- 轻量级SOD模型的关键在于如何在有限的参数下高效地学习多级别、多尺度的的特征,而不是去融合backbone的不同侧链,亦或通过不同尺寸的膨胀卷积来汇总不同尺度的卷积特征。
使用的方法(创新点)
提出了极轻量级的网络——SAMNet。对于336$\times$336的输入图像,在TITAN XP上可以达到343fps的速度,而且只有1.33M的参数。整个模型还是类似UNet,前两层使用普通的膨胀深度可分离卷积,后三层使用提出的立体感注意力多尺度模块进行堆叠,在第五层之后使用金字塔池化模块。整体使用深度监督思想,总的loss是五个BCELoss之和,后四层的loss需要乘以系数0.4。
设计了膨胀深度可分离卷积作为基础的卷积操作,它使用不同膨胀比例的膨胀卷积来捕捉多尺度信息,使用深度可分离卷积来减少浮点数操作并减少模型参数量,使用像素级的加和代替通道维度的拼接来显著减少参数量和计算代价。其具体操作是先对图像使用3$\times$3的深度可分离卷积,然后并联的使用某种膨胀比例的空洞卷积,然后对这些并联的分支进行像素级的加和。
设计了新颖的立体感注意力多尺度模块。上面的操作中有一个问题:平等地对待每一个分支,这是不合理的,有可能一些分支的信息更重要,一些分支的信息则是纯粹的噪音,因此设计了立体感注意力多尺度模块,来允许每个通道的每个空间位置自适应地调整其权重。上一步获得的加和特征分为两个分支进行处理,一个分支进行GAP,然后使用两层的多层感知机得到通道级注意力,另一个分支先使用1$\times$1卷积将加和特征投影到低维空间,然后使用两个膨胀深度可分离卷积,最后在使用1$\times$1卷积降维得到空间级注意力。将空间注意力和通道注意力扩展到相同尺寸,然后进行像素级相乘,接着对结果使用softmax,得到立体注意力,该注意力与膨胀卷积得到的特征对应相乘,最后进行1$\times$1的卷积并进行残差链接得到SAM模块的输出。
评估方法
- F-measure,MAE,weighted F-measure,S-measure,FPS,FLOPS。
其他
- 可以同MobileSal网络对比着看下。
- 理想的注意力模块应该具有以下功能:
- 由于各通道是独立的,因此最终的注意力也应当具有很强的通道内依赖性。
- 最终的注意力应当具有很强的空间级的依赖性。
- 注意力的计算应当是十分高效的。
- 关于卷积和多尺度的一些博文: