UC-Net Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders

引用格式

[1] Zhang J , Fan D P , Dai Y , et al. UC-Net: Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders[C]// 2020.

研究的背景

  1. 现存的模型将SOD视作一种点估计任务,使用一条确定的学习流程,得到显著性图。

使用的方法(创新点)

  1. 提出了第一个使用不确定性来进行RGB-D显著性检测的框架——UCNet。这是一个概率RGB-D显著性检测网络,它通过条件变分自编码器(CVAE)来建模人类标注的不确定性,并通过在隐式空间采样来为每一张输入图像生成多张显著性图(使用迭代隐藏策略,逐步隐藏显著性前景,借此来产生多种显著性预测,最后建模人类标注的多样性和不确定性)。最后,借助显著性一致处理,可以基于这些显著性图来生成最终的显著性预测。

    architecture

  2. 条件变分自编码器。VAE相比AE的进步在于其不再试图学习如何将输入映射为数值编码,而是将输入映射为分布,这样就可以引入不确定性,使得模型更具创造力(例如用标签0和1训练的AE在遇到标签为0.5的情况下可能会不知道如何生成,但是VAE学习到的是分布——即越靠近0,则输出越像某个图像,越靠近1,输出越像另一张图,取0.5时,VAE会同时取到两个分布的交集部分,同时具有两个分布的特征——如满月与新月之间的半月)。CVAE将先验调整为高斯分布,其C,即conditional,指的是其分布的参数随着输入的变化而变化。该AE有三个变量:输入变量x,隐式变量z和输出变量y。对于从高斯分布z|x之中采样得到的隐式变量z来说,y从y|x,z之中生成,于是z的后验公式可以被重新改写为z|x,y。CVAE的loss下所示:
    $$
    L_{CVAE}=E_{z\sim Q_\phi(z|x,y)}[-logP_\omega (y|x,z)]+D_{KL}(Q_\phi (z|x,y)\parallel P_\theta (z|x))
    $$
    其有两个目的,第一项是希望输入和输出的差距尽量小(编码解码不损失有效信息),第二项是为了避免VAE学习到的分布的σ趋近于0,退化为AE这样的特殊情况,产生类似模式崩溃这样的问题,因此通过计算学习到的正态分布和标准正态分布之间的KL散度(这里应该是关于均值和方差的函数)来反应二者的接近/离散程度。

  3. 设计了隐式网络模块,包含先验网络和后验网络,前者($P_\theta$)将RGB-D输入映射为隐式变量z,后者($Q_\phi$)将输入和gt一起映射为隐式变量。

    LatentNet

  4. 迭代隐藏策略,每一组图像会进行三次迭代,每次将显著目标隐藏之后在剩下的目标中寻找显著目标(用已有SOD模型),这样便可以获得具有多样性和不确定性的显著性目标标注了。

  5. 设计了一个深度修正网络,它作为一个辅助组件,可以抑制深度图像中的噪声,并产生具有丰富语义和几何信息的深度图像。该模块使用smooth L1 loss和IoU loss之和进行训练

  6. 设计了一个显著性网络,以RGB图像和修正之后的深度图像作为输入来生成显著性特征图。使用VGG16作为编码器,使用DenseASPP来扩大感受野,其具体结构如下图所示。

    SaliencyNet

  7. 设计了一个预测网络,使用隐式网络的随机特征和显著性网络的确定特征来产生多样性的显著性预测图。隐式网络可以学习到一个分布($\mu,\sigma$),然后在其基础上通过在正态分布上重采样一个参数$\eta$来得到抽样样本$z=\eta\times\sigma+\mu$,根据z即可获得和显著性网络输出同尺寸的具有随机特征的显著性特征图。两个特征图进行拼接之后,在通道维度进行打乱,防止网络只关注确定的显著性特征。最后便是简单的生成显著性图。在测试阶段,通过对隐式网络的结果进行多次采样,可以生成多种不同的显著性图,然后送入显著性一致模块进行最终的投票。

    FE

  8. 设计了一个显著性一致模块(在测试阶段)来模拟多数投票机制来生成最终的显著性预测。

    test

  9. 总的loss是CVAE的loss、depth的loss以及smooth的loss之和。其中CVAE的loss以及depth的loss已经提及,smooth的loss是基于类间区别类内相似的假设来关注边界进行SOD。

评估方法

  • MAE,F-measure,E-measure,S-measure。

其他

  • Zhiming Luo, Akshaya Mishra, Andrew Achkar, Justin Eichel, Shaozi Li, and Pierre-Marc Jodoin. Non-Local Deep Features for Salient Object Detection. In IEEE CVPR, 2017.