Democracy Does Matter:Comprehensive Feature Mining for Co-Salient Object Detection
Democracy Does Matter:Comprehensive Feature Mining for Co-Salient Object Detection引用格式[1] Yu S , Xiao J , Zhang B , et al. Democracy Does Matter: Comprehensive Feature Mining for Co-Salient Object Detection[J]. 2022.
研究的背景
CoSOD,共显著性目标检测,目标是检测出一组图像中共同存在的显著性目标,最近工作使用的注意力机制和额外信息的效果并不理想。前者一方面获取的共享特征不完整,只能覆盖到一部分内容,另一方面对于复杂场景往往关注到错误的目标区域,而后者过于依赖额外的数据集。
该工作的目标是使用民主性挖掘全面的共显著特征,并在不引入任何额外信息的情况下减少背景干扰。
使用的方法(创新点)
设计了新颖的民主共显著特征挖掘框架(Democratic Co-salient-Feature-Mining framework,DCFM),其结构如下图所示。
设计了民主原 ...
Modifification of Gradient Vector Flow using Directional Contrast for Salient Object Detection
Modifification of Gradient Vector Flow using Directional Contrast for Salient Object Detection引用格式[1] Srivastava G, Srivastava R. Modification of gradient vector flow using directional contrast for salient object detection[J]. IEEE MultiMedia, 2019, 26(4): 7-16.
研究的背景
MDC:minimum directional contrast,最小方向对比度,是一种先验知识,前景目标将在所有方向都有很高的对比度,而背景对象至少会在一个方向对比度很低,因为它要连接到背景之中,因此前景目标的MDC会比背景目标的高一些。MDC将图像根据每个像素点分为左上、左下、右上、右下四个部分,每个部分的方向对比度是该部分所有像素点的所有channel跟该像素点的对应channel的差的平方的双重求和,该计算可以通过使用integral image的概 ...
Bi-directional Object-Context Prioritization Learning for Saliency Ranking
Bi-directional Object-Context Prioritization Learning for Saliency Ranking引用格式[1] Tian X , Xu K , Yang X , et al. Bi-directional Object-context Prioritization Learning for Saliency Ranking[J]. 2022.
研究的背景
显著性排名任务用于研究这样一种视觉行为:人类根据场景中物体显著性的不同而转移注意力。
现有方法都遵循基于目标的注意力,但其实人类还有空间注意力机制,在识别过程中会从一个区域移动到另一个区域。
以往的注意力机制常常强调富有鉴别力的特征同时抑制来自其他通道的特征,但是这样的手段对于显著性排序来说是不合适的,因为这些鉴别力低的特征或许在排序上有意义(比如是联系两个物体的上下文)。
使用的方法(创新点)
提出双向的基于目标上下文的优先次序学习方法。使用基于查询的目标检测方法提取全局特征,并生成一系列目标特征。然后将它们送入SOS和OCOR模块,最后学习目标的优先次序知识。
提出了 ...
Generalizable Cross-modality Medical Image Segmentation via Style Augmentation and Dual Normalization
Generalizable Cross-modality Medical Image Segmentation via Style Augmentation and Dual Normalization引用格式[1] Zhou Z , Qi L , Yang X , et al. Generalizable Cross-modality Medical Image Segmentation via Style Augmentation and Dual Normalization[J]. 2021.
研究的背景
训练数据和测试数据之间的分布转变通常会在部署训练好的分割模型期间导致严重的性能退化,这种分布转变可能是因为采集参数的不同,模态的不同亦或成像方法的不同。
泛化的跨模态分割(指的是给定单一源域,希望可以模拟不可见目标源域可能发生的变化,例如将用MRI训练的模型直接用于分割CT图像),具有重要的临床意义,是一项很有挑战性的任务。
当前用于泛化跨模态分割的方法有域自适应(对测试集的要求很高)和域泛化(当前只能接受小的域转变,如cross-center,大的域转变不可以,如cro ...
Pyramid Grafting Network for One-Stage High Resolution Saliency Detection
Pyramid Grafting Network for One-Stage High Resolution Saliency Detection引用格式[1] Xie C , Xia C , Ma M , et al. Pyramid Grafting Network for One-Stage High Resolution Saliency Detection[J]. 2022.
研究的背景
网络的采样深度和感受野之间的矛盾导致为低分辨率输入设计的模型在高分辨率图片上表现一般。此矛盾在于当前多数SOD模型基于编码-解码器架构设计,当输入图像的分辨率增加时,捕获的特征的尺寸也在增加,但由网络决定的模型感受野的大小是固定的,因此可能会无法捕捉全局语义,这是很致命的。
多阶段高分辨率SOD方法:HRSOD和DHQSOD。
transformer可以获得更准确的全局语义信息,CNN可以获得更丰富的细节信息。
使用的方法(创新点)
提出金字塔移植网络(pyramid grafting network,PGNet)。使用transformer和CNN骨干网络从不同分辨率图像中独立地提 ...
ICON论文笔记
ICON论文笔记引用格式[1] Zhuge M , Fan D P , Liu N , et al. Salient Object Detection via Integrity Learning[J]. 2021.
研究的背景
SOD有着显著的进步,但是在完整性上还有着不小的差距。关于完整性:在微观上,指的是模型应当突出表示某一显著性目标的所有部分;在宏观上,模型应当发现所给图像中所有的显著性目标。
使用的方法(创新点)
提出了完整性认知网络(Integrity Cognition Network,ICON),它设计了三个重要的组件来学习强完整性的特征。
没有像许多工作一样关注提取特征的判别力,而是提出了多样特征聚合模块(diverse feature aggregation,DFA)来聚合具有多种感受野的特征,并增加特征的多样性。由以往工作可知丰富的感受野可以帮助网络捕捉不同尺寸大小的显著性目标。该模型则更进一步,使用了不同尺寸且不同形状的卷积核,分别解决目标不同大小不同形状的问题。该模块中使用了三种卷积块:非对称卷积、空洞卷积和原始卷积来实现尺寸和形状的多样性——将b ...
DetectoRS论文笔记
DetectoRS论文笔记引用格式[1] Qiao S , Chen L C , Yuille A . DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution[J]. arXiv, 2020.
研究的背景
小
使用的方法(创新点)
H
评估方法
PR曲线,F-measure,MAE。
其他
Z
HarDNet-MSEG论文笔记
HarDNet-MSEG论文笔记引用格式[1] HUANG, Chien-Hsiang; WU, Hung-Yu; LIN, Youn-Long. Hardnet-mseg: a simple encoder-decoder polyp segmentation neural network that achieves over 0.9 mean dice and 86 fps. arXiv preprint arXiv:2101.07172, 2021.
研究的背景
小目标可能漏检,边界分割不清晰,训练成本高,推理时间长。
使用的方法(创新点)
HarDNet-MSEG由一个backbone和一个解码器组成,backbone是HarDNet68,解码器是Cascaded Partial Decoder。
HarDNet是DenseNet的改进,它们的区别如下图所示。相比于DenseNet,HarDNet进行了稀疏化链接,如果2^n整除了 k,就让层 k 连接到层 k-2的n次方,其中n是非负整数,且k-2^n≥0。特别的,层0是输入层。在这种连接方案下,一旦第 2^n 层被处理 ...
Learning to Detect Salient Object with Multi-source Weak Supervision
Learning to Detect Salient Object with Multi-source Weak Supervision引用格式[1] ZHANG, Hongshuang, et al. Learning to detect salient object with multi-source weak supervision. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021.
研究的背景
像素级标注的高成本使得基于弱监督学习的显著性目标检测变得引人注目,然而一个弱监督源很难包含足够的信息来训练一个好的模型。
像素级别的标注精准但是成本太高;图像级别的分类则太过简单,不能传递足够的信息,使得网络只能突出最富有判别力的区域,而不是整个目标;图像标题用一个短句描述图像的内容,因此比图像级分类标签包含了更多的信息,但是往往会不止描述显著性区域还会描述背景,导致网络还会突出一部分背景。总而言之,这些图像级别的监督往往会导致边界不清晰以及边界一些像素的分类错误。
使用的方法(创新点)
提 ...
FPN与U-Net对比
FPN与U-Net对比相同点:
都采用了bottom-up和top-down的结构,并且都采用了横向连接的结构。
不同点:
FPN用于检测任务,U-Net用于分割任务。
FPN大多作为一个可嵌入的模块嵌入网络,U-Net本身就是网络,可以被其他模块嵌入。
FPN融合多尺度特征图使用的是像素级的加和之后跟一个1$\times$1的卷积,U-Net采用的是拼接之后跟一个1$\times$1的卷积层。
FPN对top-down过程中的每个stage都进行了预测,而U-Net只使用了top-down过程中的最后一个stage来进行预测。
FPN上采样的方式是插值,无需学习,U-Net上采样的方式是deconv,可以学习。
FPN的高层特征放大2倍后与低层的尺寸恰好一致,而在UNet中通常不一致,还需要对低层特征做crop使得与放大后的高层特征尺寸一致。
上采样时无论是使用插值还是转置卷积,都无法还原真实的特征值,有一定程度失真。上采样后再做特征融合,就会导致特征产生混叠。从信号学的角度来看,若要还原,可以改变采样频率或者使用滤波器。而卷积本身就是一种滤波器,因此FPN特征融合后就使用卷积对融 ...