SaliencyGAN Deep Learning Semi-supervised Salient Object Detection in the Fog of IoT

引用格式

[1] Wang C , Dong S , Zhao X , et al. SaliencyGAN: Deep Learning Semisupervised Salient Object Detection in the Fog of IoT[J]. IEEE Transactions on Industrial Informatics, 2020, 16(4):2667-2676.

研究的背景

IoT中的边缘设备并不是都拥有足够的算力，导致只能在云端进行推理，然后进行传输，时间代价和传输代价都很大。
现有的SOD大多数都是全监督的，需要手动进行像素级的标注，虽然也有一些半监督和弱监督的方法，但是性能表现无法和全监督方法比较，而且需要大量的图像级的标注。

使用的方法（创新点）

提出了半监督对抗学习的方法，只要标签数据量达到全监督学习的30%，便可以获得同样的性能表现，而且对于模式崩溃更为鲁棒。这是SOD领域第一个半监督方法。SaliencyGAN拥有捕获跨模态数据分布的能力，并且论文中的结果显示其分布捕获能力在小数据集上比vanillaGAN，CycleGAN，WGAN-GP要好。
模型在云端进行训练和微调，测试时，在雾设备上进行SOD推理，如果需要进一步的高级任务，再将检测到的显著性内容传输到云端设备进行处理。
设计了拼接和互相增强的双GAN架构，并同时优化无监督的GANloss和有监督的分类loss。模型由两个GAN组成，第一个GAN以随机噪声作为输入，经过生成器生成图像，再将生成图像和真实图像送入判别器判断真假。第二个GAN以真实图像的有标签类和无标签类为输入，生成显著性图，然后将显著性图送入判别器判断显著性图来自有标签数据还是无标签数据。其中第一个GAN的判别器和第二个GAN的生成器共享参数，这强迫第一个判别器可以使用输入图像的显著性特征进行判断。
loss一共有五个部分，$G^I$和$D^I$的对抗loss，$G^S$和$D^S$的对抗loss，以及$G^S$的监督loss。$G^I$的对抗loss希望可以使得生成器生成的图像尽量真实，因此该loss分成两个部分：第一部分要求真假图像提取的特征尽量相似，第二部分要求判别器将生成的图像预测为真实图像。$D^I$的对抗loss使用Wasserstein distance，希望可以尽量区分真实图像和生成图像，因此也分为两个部分：第一部分要求判定真实图像为真，生成图像为假，第二部分加入了一个梯度惩罚项，惩罚出一个利普希茨条件，只要梯度不为1就进行惩罚，离1越远惩罚越大。$G^S$的对抗loss希望可以生成难以区分是否有标签的显著性图，因此也分成两部分：第一部分要求有标签数据的显著性图和无标签数据的显著性图提取的特征尽量相似，第二部分要求判别器判定该显著性图来自有标签数据。$D^S$的对抗loss希望可以尽量区分有标签和无标签的显著性图，因此也分成两部分：第一部分判定来自有标签数据的显著性图是来自有标签数据的，第二部分判定来自无标签数据的显著性图是来自无标签数据的。此前四个都可以看作无监督loss，因为他们使用的都是$G^S$预测的显著性图而不是gt，但这样是不够的，我们还需要$G^S$生成的显著性图尽量准确，因此$G^S$的监督loss就是用来做这个的——使得有标签数据和无标签数据生成的显著性图尽量相似，该loss是generalised dice loss。
整个算法的流程图如下所示：

评估方法

MAE，max F-measure，PR曲线