2022-9-19论文笔记
论文笔记《Cascaded Partial Decoder for Fast and Accurate Salient Object Detection》
提出了级联部分解码器框架,该框架丢弃了低层特征以降低深度聚合模型的复杂性,并利用生成的相对精确的注意力图来细化高层特征以提高性能。
由于整个网络的浅两层捕捉更多的是细节信息,深两层捕捉更多的是语义信息,所以选择第三层作为分界点。在第三层之后分出两个分支,一个是注意力分支,一个是显著性分支,前者使用深三层特征送入部分解码器,生成初始显著性图,此图送入整体注意力模块,获得增强的注意力矩阵。该注意力矩阵被送入显著性分支帮助精细化第三层的特征,这样的方式可以帮助去除原来第三层特征中的干扰信息,但同时,如果干扰信息被分类为显著性区域,那么也会极大地影响分割结果,于是就有了整体注意力模块。其公式如下:$$S_h=MAX\left(f_{min_max}\left(Conv_g\left(S_i,k\right)\right),S_i\right)$$
部分解码器模块就是魔改的RFB模块。
《CAGNet: Content-A ...
Deep Signature Transforms
Deep Signature Transforms研究的背景
这是2019年的工作,提出了一种新颖的方法,可以将签名变换的优点和现代深度学习框架相结合,这样就可以将具有强大数学理论基础的签名变换和具有巨大经验成功的神经网络相结合,得到更好的效果。
路径举例:特定位置的气压变化可以被认为是 R 中的一条路径; 笔在纸上的运动可以被认为是 $R^2$ 中的一条路径; 金融市场的变化可能被认为是 $R^d$ 中的一条路径,d 可能非常大。
路径签名:路径的统计量(从0阶到无穷阶)的集合。
使用的方法(创新点)
整体思路:通过在签名转换之前学习流的扩充,可以以数据相关的方式选择签名的项。思路流程:以往的工作往往使用深度为n的截断签名,即取0~n阶的路径积分构成的集合作为路径签名,但是这存在一个问题——如果要学习的函数需要依赖于更高阶的路径积分,那么关键的信息就丢失了。其解决方法是在取签名之前对数据流的每一个点做增强,例如将x映射为f(x),然后对f(x)取签名。于是关键问题就变成了如何选取这个映射f(x),一个自然的想法就是扔进网络里学一个选择出来。但是将签名转换作为神经网络的一个层的明显问 ...
Path Signature Neural Network of Cortical Features for Prediction of Infant Cognitive Scores
Path Signature Neural Network of Cortical Features for Prediction of Infant Cognitive Scores研究的背景
在婴儿时期,认知技能和大脑形态之间有着紧密的联系。但是,考虑到特征维度过多、样本量小、数据缺失等问题,利用个体的大脑形态学特征来预测个体的认知得分仍然是一个巨大的挑战。
在实际应用中,数据采集过程中的小样本量(SSS)和不同时间点的数据缺失是不可避免的。由于数据有限,一个紧凑但富有表达性的特征集是我们急需的,因为它可以减少维数并避免潜在的过拟合问题。因此,作者率先采用路径签名的方法,进一步探索纵向皮层特征的基本隐藏动态模式。
关于路径签名:
总的来说:路径的签名是包含许多代数和解析性质的流数据的有效特征集。
而在实际应用中,对于更常见的离散时间序列,可以通过线性插值嵌入到路径空间中。嵌入路径的对应签名可以通过陈氏恒等式进行计算:$$Sig(X) _ {a,b}^{i_1,i_2,\cdots,i_l}=\frac{1}{l!}\prod_{j=1}^l (X_b^{i ...
A Primer on the Signature Method in Machine Learning
A Primer on the Signature Method in Machine LearningPath Signature的基础知识1、pathpath被定义为一个将连续取值区间[a,b]转换到多维空间$R^d$的映射。其最简单的理解就是物体运动的轨迹,假定物体在二维平面上从$t_1$时刻持续运动到$t_2$时刻,每个时刻的位置都可以用一个二维向量表示,这一轨迹就构成了一条path,$X:[t_1,t_2]\to R^2,X_t={X_t^1,X_t^2}$,它的每个维度都表示了物体在对应方向上随时间变化的规律;更一般的path可以被定义为:$X:[a,b]\to R^d,X_t={X_t^1,X_t^2,\cdots,X_t^d},$在实际应用中,我们能够获得的path通常并不是连续的,而是它在取值区间内的不均匀采样,因此我们通常需要进行不同的插值以获得时间上分布均匀且更加密集的path。
2、path integralpath signature实际上是path的不同阶路径积分(path integral)的集合,我们首先来介绍路径积分。假定存在两个一 ...
Multi-Task Learning as Multi-Objective Optimization
Multi-Task Learning as Multi-Objective Optimization研究的背景
多任务学习可以看做是一个多目标优化问题,因为不同的任务可能会互相冲突,需要进行权衡。一个折中的办法是优化一个代理目标函数,让它可以最小化每个任务的loss的线性加权组合;然而这种方法只有在它们不竞争的时候才可以使用。
以往有许多相关工作是基于梯度的多目标优化,但是他们并不适合直接用于大规模的学习问题,因为它们随着梯度维度的上升和数量的增加变得难以扩展。
Stein认为,如果要估计高斯随机变量,最好是从所有样本中估计三个或三个以上变量的均值,而不是分别单独进行估计,即使这些高斯变量是相互独立的。这就是Stein悖论,也是探索多任务学习的早期动机。但是MTL 的潜在优势超出了 Stein 悖论的直接含义,因为即便是真实世界中看似无关的任务也因数据共享的过程而存在很强的依赖性。
使用的方法(创新点)
明确地将多任务学习转换成多目标优化,总目标是找到帕累托最优解。鉴于背景2,作者提出了多目标损失的上界,并证明了它可以被有效地优化,然后进一步证明了优化这个上界会产生帕累托最优解。
...
Rethinking the U-shape Structure for Salient Object Detection
Rethinking the U-shape Structure for Salient Object Detection研究的背景
对于现有的U型网络,工作大都集中在增强编码器的特征提取能力和增强解码器的多尺度特征聚合能力上,而忽略了他们之间的连接。
只要有空间插值就会带来不好的影响。
感受野的尺寸并不是越多越好,太多的多样性会分散后续层的注意力。
使用的方法(创新点)
整体流程。整体采用U型架构,不同点在于使用了CII模块将多尺度信息编码到共享filter,又因为CII的输入特征是多尺度的,因此又使用RGC模块通过自适应地利用与每个不同输入尺度有关的相对全局信息,实现了基本全局语义和局部纹理之间的平衡。
提出了中心化信息交互模块(centralized information interaction,CII),这是一种策略而非固定的模块,其核心思想是不将多尺度信息编码进特征,而是将多尺度信息编码进共享的可学习卷积核中。没有像经典U型网络那样直接将encoder提取的特征传递到decoder,CII使用了一系列相同的信息交互器(所谓相同其实是指参数共享)来与编码在它们中的信息进 ...
Strip Pooling Rethinking Spatial Pooling for Scene Parsing
Strip Pooling Rethinking Spatial Pooling for Scene Parsing研究的背景
在像素级预测任务中,空间池化被证明在捕捉长距离上下文信息时是十分有效的。
提升模型建模长距离依赖的方法有许多:自注意力,非局部模块,但是它们的计算量都太大了;还有空洞卷积,全局池化,金字塔池化,但是它们都使用方形窗口探查输入特征图,在应对多种形态的目标时不够灵活(比如观察柱状物体时会将方形窗口的其他部分的特征引入,形成信息污染)。
使用的方法(创新点)
借鉴空间分离卷积的思想,将N$\times$N池化也分离为1$\times$N和N$\times$1池化。这有两个好处:首先,可以捕捉孤立区域的长距离关联;其次,狭窄的核可以在捕捉局部上下文的同时防止不相关区域的信息造成污染。以此为创新点,构建了新的模型——SPNet。
引入了一个新的条状池化模块(Strip Pooling Module,SPM),使得骨干网络可以有效地建模长距离依赖。具体来说,SPM有两条路径,分别关注水平和竖直的空间维度,然后用这两种编码来平衡它自己的权重来进行特征修复。
提出了一 ...
F3Net Fusion, Feedback and Focus for Salient Object Detection
F3Net Fusion, Feedback and Focus for Salient Object Detection研究的背景
常用的特征融合策略比如加和、拼接,忽视了特征间存在着巨大的差异。
对于高精度SOD来说还有两个挑战:首先,不同级别的特征有不同的分布特征,高维特征有丰富的语义,但是失去了准确的位置信息,低维特征有丰富的细节,但是充满了背景噪声,如果不精细地控制信息流就会导致噪声或模糊边界的引入,使得性能下降。其次,大多现有方法都使用二元交叉熵作为loss,这是在平等的对待每个像素,但是从直觉上来说,边缘像素应该更富有判别性,应当被赋予更大的权重。
BCEloss有三个缺点:首先,只关注了像素,没有关注全局结构;其次,图像中的背景占据主导,前景像素会被稀释;最后,它平等的对待每一个像素。
使用的方法(创新点)
提出了新的模型——F3Net,其结构如下图所示:
设计了交叉特征模块(cross feature module ,CFM),其动机是为了消除特征之间的不一致。为了有选择性地聚合多级特征,它没有进行传统的拼接或者加和,而是自适应地选择互补的内容来进行融合,这样可 ...
Dynamic Feature Integration for Simultaneous Detection of Salient Object, Edge and Skeleton
Dynamic Feature Integration for Simultaneous Detection of Salient Object, Edge and Skeleton研究的背景
显著目标检测、边缘检测和骨架提取是三个差异明显的低级的像素级任务。
以往的联合训练需要数据集支持多种标注。
储存多个任务各自的预训练模型在移动设备上是不高效且不方便的做法。
挑战一:如何同时学习多种任务。
挑战二:如何解决不同任务特征域和优化目标的分歧。
面对挑战一时,以往工作往往使用一种任务辅助另一种任务,但是作为辅助的任务的性能会被牺牲和忽视。当面对挑战二时,如果待解决的任务是矛盾的,直接使用上述方法往往会失败。
三个任务都需要多级特征。SOD需要提取同类区域的能力,因此更多依靠高维特征;边界检测意图检测出准确的边界,因此需要更多低维特征来锐化粗糙的边界图;骨架提取更偏爱低中高维信息的恰当组合,借此来检测变化尺度的骨架。
使用的方法(创新点)
说明了三种任务共有的相似性,并解释了三种任务是如何被应用在一个统一的框架之中进行端到端训练的。首先使用ResNet50作为特征提取器,conv5中的 ...
Structure-Consistent Weakly Supervised Salient Object Detection with Local Saliency Coherence
Structure-Consistent Weakly Supervised Salient Object Detection with Local Saliency Coherence引用格式[1] Yu S , Zhang B , Xiao J , et al. Structure-Consistent Weakly Supervised Salient Object Detection with Local Saliency Coherence[C]// 2020.
研究的背景
近年来,稀疏标签一直备受关注。然而弱监督和全监督的SOD方法之间的性能差距是十分巨大的,并且以前的大多数弱监督方法都采用了复杂的训练过程与花哨的设计技巧。
对于稀疏标签,会有太多的像素是无标签的,只借助稀疏标签很难获得丰富的关于显著性区域的知识。而且由于没有类别信息,因此更难学习到物体结构。
一个朴素的想法是如果两个像素具有相似的特征或者相邻的位置,它们就会有相似的显著性分数。
使用的方法(创新点)
设计了一个单轮的端到端的训练方案,通过未经过前处理、后处理或额外数据监督的草图标 ...