AMPNet论文笔记
AMPNet论文笔记引用格式[1] Sun L , Chen Z , Wu Q , et al. AMPNet: Average-and Max-Pool Networks for Salient Object Detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, PP(99):1-1.
研究的背景
非显著区域被误识别为显著目标,是因为多级卷积特征中包含冗余信息。
检测到的显著目标往往不完整,缺乏局部细节。
使用的方法(创新点)
整体结构
我们提出了平均——最大池化网络(AMPNet),利用平均池化模块与最大池化模块,分别在空间和通道维度上整合多级、互补的上下文特征,并采用深度监督机制,得到精细的显著性预测结果。整个模型分为四个阶段:自底向上阶段,平均——最大池化阶段(池化模块在这里),自顶向下阶段(两条路径在这里),特征融合阶段。
自底向上阶段
采用了魔改的VGG16模型(将最后的全连接层替换成卷积层)作为骨干网络,用于学习并提取多尺度特征。骨干网络共有6个卷 ...
PFANet论文笔记
PFANet论文笔记引用格式[1] Zhao T , Wu X . Pyramid Feature Attention Network for Saliency detection[J]. 2019.
研究的背景
在以往的工作中,来自不同层的特征总是被无差别地整合在一起,然而不同的特征图或者同一图中不同的特征显然在SOD中扮演了不同的角色。
深层包含全局上下文关注信息,适合用于定位显著性区域,浅层包含空间结构细节,适合用于定位边界。
为了解决不同特征对显著性检测贡献不同却被用同样方式处理的问题,以往的工作提出了注意力模型和门函数。
使用的方法(创新点)
提出了PFANet,用于增强高维度的上下文特征和低维度的空间结构特征。
提出了上下文感知的金字塔特征提取模块(CPFE),让高维度特征图可以捕捉丰富的上下文特征——多尺度、多感受野、高维度的特征。该模块以VGG16中深三层的特征图 作为输入,使用三个不同膨胀率的空洞卷积以及一个1x1的卷积层来捕捉多感受野的上下文信息。接着将四个结果统一到最大尺度(下图红色),然后在channel维度进行拼接。最后将三个结果再次统一到最 ...
MLMNet论文笔记
MLMNet论文笔记引用格式[1] Wu R , Feng M , Guan W , et al. A Mutual Learning Method for Salient Object Detection With Intertwined Multi-Supervision[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020.
研究的背景
显著性预测图依然不够准确,这是目标内部的复杂性和卷积、池化操作步长引起的边界不准确共同导致的。
显著性目标内部结构复杂,很难做到均匀地高亮整个目标。
由于卷积、池化带来了信息的损失,导致边界附近预测不准。
为了得到好的结果,以往的工作主要使用跳跃连接结构(skip-connection)或者循环递归结构(recurrent architecture)来整合语义信息和细节信息。为了解决仍然存在的边界模糊问题,前人开始引入额外的边界信息进行共同训练。
以往的工作显示VGG的前三个块适合于同 ...
为什么大半生要为买房而奋斗?
为什么大半生要为买房而奋斗?一生劳劳碌碌,房贷一下数十年,期间战战兢兢,如履薄冰,就为了几十米之地付出半生年华,值得吗?
作者:飞花落雪链接:https://www.zhihu.com/question/419506370/answer/1499970924来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
因为大多数人没有想明白。
当你一个人无欲无求的时候,你就会发现其实房子并不重要。因为,没什么重要的。
尤其在你想明白了,抚养后代只不过基因给你的动物本能,而实际上你留传的后代过了三代,连你的名字你的样子都不知道以后,你就会发现殚精竭虑的让自己儿女跃迁到更高的阶层,那不过是社会赋予你的自我焦虑,你就会彻底解脱自我。毕竟,我们所有人,都是二十万年以前一只女智人的后代。至于那时代的其他人类,他们或许曾经留下过后代,或许留下后代死亡了,但那与现在并没有关系,我们也只知道这个不知道名字的女智人。
你费尽心机所养育的后代,过了若干代连你的名字也不知道,所以抚养后代阶层跃迁完全是个笑话。抚养后代对于整个物种种群来说,是极其有意义的,因为物种要延续,而对于个体来说,没有 ...
GateNet论文笔记
GateNet论文笔记引用格式[1] Zhao X , Pang Y , Zhang L , et al. Suppress and Balance: A Simple Gated Network for Salient Object Detection[J]. 2020.
研究的背景
以往的显著性检测方法使用U-Net或者FPN作为基础结构,但是有两个问题:第一点是编码器和解码器交换信息的时候缺乏对干扰的控制(筛除噪声冗余),以往的工作多使用all-pass的跳跃结构,引入了噪声特征,并且难以充分利用有效特征,因此作者试图在每对编码器块和解码器块之间建立一个信息筛选单元来强化显著性特征,抑制背景干扰;第二点是没有考虑不同编码器块的贡献的差异。
为了获得更大的感受野并结合多尺度信息,前人使用了ASPP模块(atrous spatial pyramid pooling module),但是过大的膨胀率会因为插入了过多的零使得点之间的相关性严重缺乏,这不利于微小结构的识别。
使用的方法(创新点)
整个网络分为编码器网络和解码器网络,前者由去掉全连接层和最后池化层的VGG16组成。后 ...
CSNet论文笔记
CSNet论文笔记引用格式[1] Gao S H , Tan Y Q , Cheng M M , et al. Highly Efficient Salient Object Detection with 100K Parameters[J]. 2020.
研究的背景
显著性目标检测需要花费大量的计算成本才能对每个像素进行精确的预测,因此这样的模型不适合用于低功率设备。因此作者试图通过提升模型的效率来缓解计算成本和模型性能表现之间的矛盾。
SOD任务需要为每个图像像素生成准确的预测分数,因此既需要大尺度的高级特征表示以正确定位显著对象,又需要精细的低级特征表示以进行精确的边界细化。
如何构建具有SOTA性能的超轻量级SOD模型是一个重要但研究较少的领域,它主要面临两个挑战:第一点是当高级特征的低频特性满足输出的显著性图的高分辨率时,可能会出现严重的冗余问题;第二点是SOTA的SOD模型通常使用在ImageNet数据集上预训练的分类模型作为骨干网络来提取特征,但是这些骨干网络本身就是十分耗费资源的。
前人也注意到了低频特征的空间冗余问题,因此设计了OctConv操作来代替普通的卷积 ...
PAGENet论文笔记
PAGENet论文笔记引用格式[1] Wang W , Zhao S , Shen J , et al. Salient Object Detection With Pyramid Attention and Salient Edges[C]// CVPR19. 2019.
研究的背景
多尺度显著性特征对SOD是十分重要的,以往的工作往往将注意力集中在如何组合中间层的结果上面。
CNNs通过重复的池化和下采样操作使得深的层可以获得更大的感受野和更强的表示能力,但是同时失去了细节的信息,这对高级任务来说是有用的,但是对于低级任务来说是不利的,因为低级任务往往需要精确到像素级别,例如SOD,在边界上面就需要精确的像素级分类结果。以往的工作使用的是densely connected或者bottom-up/top-down网络架构,然后在top-down过程中逐渐恢复显著性目标的细节,但是锐度问题仍然是一个挑战。因此有感于语义分割中的先进技术,作者设计了一个显著边缘检测模块,来更好地分割显著性目标并锐化边界。
锐化度是一个挑战,边界不能做到像素级的精细分类,这 ...
SCRN论文笔记
SCRN论文笔记引用格式[1] Wu Z , Su L , Huang Q . Stacked Cross Refinement Network for Edge-Aware Salient Object Detection[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2020.
研究的背景
过往的研究主要集中在如何聚合预训练网络提取的富有判别力的多层次特征。
有研究者试图使用边界信息辅助训练,然而他们都只是使用边界信息来改进分割特征(比如使用边界损失)。
灵感来源于二元分割任务和边界图的逻辑关联:边界图中的边界区域是相对应的分割图中的目标区域的子集。
使用的方法(创新点)
设$M_S$为显著性图,$M_e$为边界图,前者会高亮整个显著目标区域,后者只会高亮边界部分,因此后者的高亮部分是前者高亮部分的子集。于是有如下两式:$$M_s \wedge M_e=M_e \tag{1}$$
$$M_s \vee M_e=M_s \ ...
BASNet论文笔记
BASNet论文笔记引用格式[1] Qin X , Zhang Z , Huang C , et al. BASNet: Boundary-Aware Salient Object Detection[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019.
研究的背景
人类视觉系统有一个有效的注意力机制,它可以从视觉场景中挑选出最重要的信息,计算机视觉通过两个研究分支来建模这种机制:人眼注视点预测和显著目标检测。
以往的SOD模型大多关注区域的准确性而非边界的质量。
为了更准确地进行显著目标检测,有两个挑战是我们需要面临的。第一点是显著性主要定义在整个图像的全局对比上,而不是局部或像素级特征。为了获得准确的结果,所显著性检测方法必须了解整个图像的全局信息以及显著性目标的详细细节。为了解决这个问题,需要模型能够聚合多层次特征。
第二点是大多数显著目标检测方法都使用交叉熵(CE)作为其训练损失。但采用CE损失训练的模型在区分边界 ...
BANet论文笔记
BANet论文笔记引用格式[1] Su J , Li J , Zhang Y , et al. Selectivity or Invariance: Boundary-aware Salient Object Detection[C]// 2018.
研究的背景
SOD是诸多计算机视觉任务(如目标识别,目标追踪等)的前置步骤。
大的显著目标内部可能会有大的外观改变,使得显著目标很难被检测为一个整体。
显著目标的边界可能会非常微弱,以至于不能区分显著目标和周围的背景。
SOD模型在处理物体的内部和边界的时候面临着对立的需求,这就是选择性-不变性困境(selectivity-invariance dilemma):内部的特征应不随强烈的外观变化而变化,其目的是为了将整个目标划分为一个整体(即使是强烈的外观改变也不影响我们对目标整体的判断,不会一个整体被判断为两个部分);而边缘特征应尽量对外观变化(即使是轻微的)有选择性(区分性),其目的是为了区分显著目标和背景(即使背景和显著目标之间只有轻微的外观改变我们也能将其分割为背景和目标)。
使用的方法(创新点)
首先使用 ...