MobileSal论文笔记
MobileSal论文笔记引用格式[1] Wu Y H , Liu Y , Xu J , et al. MobileSal: Extremely Efficient RGB-D Salient Object Detection[J]. 2020.
研究的背景
高昂的计算代价阻碍了RGBD SOD在现实世界的应用。因此本文目标是搭建极轻量级的模型。
像素级的加和或者拼接只能通过平等的对待每个特征来聚合两个特征
使用的方法(创新点)
提出了轻量级模型MobileSal。其只在最粗糙的水平上传导RGB和depth信息来降低计算成本,此外,使用了IDR和CPR模块。整个模块分为RGB流和depth流,RGB流使用MobileNetV2作为backbone,在depth流中,每个阶段使用两个倒残差块(Inverted Residual Blocks,IRB)。每个IRB模块中,通过1$\times$1卷积将通道维度扩张M次,接着使用3$\times$3的深度分离卷积,然后通过另一个1$\times$1卷积压缩通道为原来的1/M,最后将得到的结果和初始输入相加即可得到输出,值得注 ...
E2Net论文笔记
E2Net论文笔记引用格式[1] Tang Y , Tang Y , Zhu Y , et al. E$^2$Net: An Edge Enhanced Network for Accurate Liver and Tumor Segmentation on CT Scans[C]// 2020.
研究的背景
3D模型计算代价很大,而且相比2D模型存在重采样问题。例如LiTS数据集中切片厚度从0.45~6.0mm变化,不利于分割,因此一种解决方案是在训练时将扫描结果采样到一个固定的厚度,但是那些小于此厚度的片会丢失重要的片间信息,同时那些厚于此厚度的片又会引入额外的误差。
使用边缘作为监督时,边缘像素和其他像素严重不平衡,会阻碍模型学习具有鉴别力的特征。以往工作使用加权loss来缓解这个问题。
使用的方法(创新点)
提出了一种两阶段的肝脏及肿瘤分割框架。第一阶段粗糙地分割肝脏,使用Res2Net作为backbone,并采用类似UNet的架构,此阶段使用的模型叫做R2UNet。第二阶段是一个边界增强网络,用于进行更准确的肝脏及肿瘤分割,其根据第一阶段的分割结果对 ...
U2Net论文笔记
U2Net论文笔记引用格式[1] Qin X , Zhang Z , Huang C , et al. U2-Net: Going deeper with nested U-structure for salient object detection[J]. Pattern Recognition, 2020, 106:107404.
研究的背景
以往的工作都使用在ImageNet上为图像分类而训练的backbone作为特征提取器。
以往的SOD模型过于复杂,一部分是因为添加了额外的特征聚合模块来从backbone中提取多级特征,一部分是因为现有的backbone通常通过牺牲高分辨率来换取更深的网络结构。
当前工作集中于多级特征集成和多尺度特征提取两个任务。
局部和全局特征都很重要,小核滤波在浅层无法捕捉全局特征,因此为了获取全局特征,最直接的想法就是在深层扩大感受野(例如使用空洞卷积),但是多次的空洞卷积代价太大。
使用的方法(创新点)
设计了两级嵌套U型架构的新模型——U2Net。该模型无需使用预训练网络作为backbone,而是从头开始进行训练。在底层,新颖的RS ...
Multi-phase Liver Tumor Segmentation with Spatial Aggregation and Uncertain Region Inpainting
Multi-phase Liver Tumor Segmentation with Spatial Aggregation and Uncertain Region Inpainting引用格式[1] Zhang Y , Peng C , Peng L , et al. Multi-phase Liver Tumor Segmentation with Spatial Aggregation and Uncertain Region Inpainting[J]. 2021.
研究的背景
SOTA的LiTS(liver tumor segmentation)通常通过期加权求和或基于通道注意力的拼接来融合跨期的特征。
这些SOTA的方法忽视了不同期间的像素级的空间联系,从而导致了差强人意的特征整合。
基于多期图像的分割可以综合不同期的互补信息,有助于进行更好的分割。
使用的方法(创新点)
设计了新的LiTS方法来充分聚合多期信息(用动脉期图像促进静脉期的LiTS)并精细化不确定区域的分割。相互引导编码器部分以ResNeXt-50为backbone,使用PV流和ART流提取特定期的特 ...
CoNet论文笔记
CoNet论文笔记引用格式[1] Ji W , Li J , Zhang M , et al. Accurate RGB-D Salient Object Detection via Collaborative Learning[J]. 2020.
研究的背景
池化和上采样操作会模糊目标的边界,低维的特征又包含了太多的背景噪声。
使用额外的深度网络从深度图中提取深度特征会带来额外的计算和存储成本。
深度图像的空间信息可以更好地表达三维场景,借此帮助定位显著性目标。
以往的工作使用的是双流的架构,借助跨模态的融合策略分别处理RGB和深度图像,或者使用专门为深度图像设计的子网络,来为RGB表示进行补偿。在带来额外代价的同时,无法在没有深度输入的情况下使用。
在推理阶段对深度图像的依赖限制了RGB-D方法的实际应用。
使用的方法(创新点)
设计了一个新颖的协作学习网络。五个transition层跟在encoder之后是要对提取的特征进行预处理。
设计了一个全局引导模块(GGM),应用于深三层,其目的是为了获取更丰富的全局语义并减缓解码器中高维语义信息的稀释。GGM的关键组件是GP ...
Towards High-Resolution Salient Object Detection
Towards High-Resolution Salient Object Detection引用格式[1] Zeng Y , Zhang P , Lin Z , et al. Towards High-Resolution Salient Object Detection[J]. arXiv, 2019.
研究的背景
边界模糊的问题始终没有解决。
现在拍摄的照片分辨率越来越高。
高分辨率SOD有三种方法:简单地增加输入图像的大小,但是极耗内存;划分成块,一块一块地进行预测,但是极耗时间且容易被背景噪声影响;使用后处理方法比如CRF或者graph cuts.
使用的方法(创新点)
设计了第一个高分辨率显著性目标检测模型。在第一条路径中,原始输入图像下采样送入GSN,输出结果在进行上采样,送入GLFN。第二条路径中,原始图像送入APS来生成一组关注不确定区域的子图,这些子图被送入LRN,在GSN的引导下改善细节并将输出送入GLFN。第三条路径中,为了尽可能多地保留细节,直接将原图送入GLFN。
设计了Global Semantic Network,用于提全局语义信息。GSN和 ...
Progressively Guided Alternate Refinement Network for RGB-D Salient Object Detection
Progressively Guided Alternate Refinement Network for RGB-D Salient Object Detection引用格式[1] Chen S , Fu Y . Progressively Guided Alternate Refinement Network for RGB-D Salient Object Detection[J]. 2020.
研究的背景
backbone在理论上有足够大的感受野来覆盖大部分的显著目标,但是有效的感受野比理论上的少很多[ Understanding the effffective receptive fifield in deep convolutional neural networks.]
在融合多尺度特征时,高维的语义信息会被逐渐稀释。
使用的方法(创新点)
提出了渐进式引导,交替式改进的网络,来改善多尺度残差模块生成的粗糙的初始显著性预测图。同程明明等人的100k参数模型一样,没有使用预训练网络作为backbone(depth流中),而是从头构建了一个轻量级的深度流(只有4个级联的 ...
A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection
A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection引用格式[1] Zhao X , Zhang L , Pang Y , et al. A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection[J]. 2020.
研究的背景
现存的RGB-D SOD模型关注RGB流和depth流的融合,但是并没有充分挖掘深度图本身,此外,分别从rgb图像和深度图像中提取特征会显著增加参数量。
rgb图像和深度图像具有较大差异,如果将二者拼接起来送入网络,就会使得网络难以训练。
深度图中所展示的稳定几何结构对光照和纹理的变化具有鲁棒性,可以为处理复杂的环境提供重要的补充信息。
使用的方法(创新点)
提出单流网络来实现早期和中期的融合,充分利用预训练模型的特征提取能力,并节省参数。网络采用FCN架构,vgg-16作为backbone,输入是四通道的图像矩阵。
在编码器和解码器之间设计了新 ...
R3Net论文笔记
R3Net论文笔记引用格式[1] Deng Z , Hu X , Zhu L , et al. R^3 Net: Recurrent Residual Refinement Network for Saliency Detection[C]// International Joint Conference on Artificial Intelligence (IJCAI), 2018. 2018.
使用的方法(创新点)
提出了新颖的循环递归残差改进网络(recurrent residual refinement network)。如之前论文笔记中所述,用vgg作为backbone的时候,前三层包含了更多的低维细节信息,而后两层则是包含了更多的高维语义信息,本模型也使用了这个结论,但是使用的是ResNeXt,并将其分成了两部分,浅层部分会被整合,用于生成低维整合特征,深层部分同样会被整合,生成高维整合特征,他们分别被记为L和H。整合的时候,先进行上采样,通道维度的拼接以及由三个卷积层跟随三个激活函数构成的特征融合网络。接着,模型会从H中生成初始显著性图,并送入一 ...
BCNet论文笔记
BCNet论文笔记引用格式[1] Dong B , Zhou Y , Hu C , et al. BCNet: Bidirectional Collaboration Network for Edge-Guided Salient Object Detection[J]. Neurocomputing, 2021, 437(4).
研究的背景
边缘的质量是决定精准检测显著性目标成功与否的关键因素。
现在有许多基于边界引导的SOD模型,但是效果不尽如人意,这主要是因为缺乏对多级特征融合和多类特征聚合的综合考虑。
SOD面临两大问题,一个是难以将显著性目标从复杂背景中分离出来。
另一个是显著目标边缘处的检测效果往往不好。
对于多类型特征的聚合,前人的工作往往只是采用简单的拼接或者像素级的加法或乘法来实现。
使用的方法(创新点)
提出了新颖的双向协作网络(bidirectional collaboration network),它可以将有效的多级特征融合和多类特征聚合操作整合到一个统一的边界引导的SOD框架中。该模型使用了深度监督的思想,但是除了CSM-1使用了边界进行监督 ...