MobileSal论文笔记
MobileSal论文笔记
引用格式
[1] Wu Y H , Liu Y , Xu J , et al. MobileSal: Extremely Efficient RGB-D Salient Object Detection[J]. 2020.
研究的背景
- 高昂的计算代价阻碍了RGBD SOD在现实世界的应用。因此本文目标是搭建极轻量级的模型。
- 像素级的加和或者拼接只能通过平等的对待每个特征来聚合两个特征
使用的方法(创新点)
提出了轻量级模型MobileSal。其只在最粗糙的水平上传导RGB和depth信息来降低计算成本,此外,使用了IDR和CPR模块。整个模块分为RGB流和depth流,RGB流使用MobileNetV2作为backbone,在depth流中,每个阶段使用两个倒残差块(Inverted Residual Blocks,IRB)。每个IRB模块中,通过1$\times$1卷积将通道维度扩张M次,接着使用3$\times$3的深度分离卷积,然后通过另一个1$\times$1卷积压缩通道为原来的1/M,最后将得到的结果和初始输入相加即可得到输出,值得注意的是每个卷积操作之后都有一个BN操作。两个流的最后输出进行融合特征,在IDR中,该特征与RGB流的前四层特征联合起来修复深度图,该深度图以输入深度图作为监督,以此增强特征表示能力。
提出了跨模态融合模块(Cross-Modal Fusion,CMF),RGB特征中包含了很多语义信息,而depth特征可以近似的表示完整物体的形状,因此将深度特征作为门单元,通过乘积来增强RGB图的语义特征。如上图所示,CMF中先将两个特征进行像素级乘积,然后送入IRB模块,同时使用GAP和两个全连接层来计算RGB的注意力向量,最后将注意力向量,特征乘积,深度特征一起送入IRB得到最终的融合特征。
提出了隐式深度恢复技术(implicit depth restoration,IDR),借助深度信息来增强Mobile Network的特征表示能力(该模块仅在训练阶段使用,测试阶段省略,因此实现了推理阶段的计算自由)。IDR的结构很简单,仅仅将前四层的RGB特征和CMF输出的融合特征进行拼接和融合。首先通过1$\times$1卷积来改变五个输入的通道数,然后进行resize并进行通道维度的拼接,再次通过1$\times$1卷积改变通道数之后送入一系列的IRB模块,并在最后通过1$\times$1卷积将结果变为单通道。该结果通过sigmoid和双线性插值可以与深度输入图求SSIM,并用1-SSIM作为loss,来衡量结构相似度。
提出了紧凑金字塔改进(compact pyramid refinement,CPR)模块来实现高效的多级特征融合。为了高效性,使用深度分离卷积代替普通卷积,对于输入x,先用1$\times$1卷积改变通道数,然后平行地使用三个膨胀率为1,2,3的深度分离卷积,然后将三者进行像素级加和,接着进行BN,relu,接着使用1$\times$1卷积压缩通道之后与原始输入进行加和,形成一个残差结构。同时,在另一个分支中,使用GAP和两个全连接层以及一个激活函数来得到注意力向量,将二者相乘即可得到输出。
解码器的每一个阶段都产生一个由BCE和Dice组成的loss,这五个loss跟IDR的loss一起组成了模型的总loss。
评估方法
- F-measure,MAE和S-measure
- 320$\times$320的输入达到450fps,共6.5M参数
其他
- SOTA:
- Uncertainty inspired RGB-D saliency detection
- Siamese network for RGB-D salient object detection and beyond
- Bilateral attention network for rgb-d salient object detection