LLM 数据处理方法
GPT-3数据处理方法使用数据集:Common Crawl、WebText2、Books1、Books2以及Wikipedia的混合。
处理方法:
首先基于同更高质量数据集WebText(reddit karmma>3)的相似性对下载的Common Crawl数据集进行过滤。具体的操作是训练一个二分类的分类器,将WebText作为正样本,Common Crawl作为负样本,进行训练。然后用训练好的分类器重新对Common Crawl进行重采样(只要被预测为高质量的数据)。然后再用多种高质量数据集的并集作为正样本,未过滤的Common Crawl作为负样本进行训练,得到的分类器对Common Crawl进行打分,只保留$np.random.pareto(\alpha)>1−document_score$的内容。
利用Spark中的MinHashLSH算法(集合之间的相似度)进行了文章级别的去重操作。
增加了一些新的高质量数据集。除了筛选过的Common Crawl,还增加了WebText2、Books1、Books2以及Wikipedia数据集。
各数据集的采样比例如 ...
A Survey of Large Language Models论文笔记
A Survey of Large Language Models论文笔记整篇综述的结构如下:
Introduction(2页)
Overview(1.5页)
Resources of LLMs(4页)
Publicly available model checkpoints or APIs
Commonly used corpora
Library resource
Pre-training(7.5页)
Data collection
Architecture
Model Training
Adaptation tuning of LLMs(5页)
Instruction tuning
Alignment tuning
Utilization(3.5页)
In-context learning
Chain-of-thought prompting
Capacity evaluation(7.5页)
Basic evaluation tasks
Advanced ability evaluation
Public benchmarks and empirical an ...
Prefix-Tuning_Prompt-Tuning论文笔记
Prefix-Tuning_Prompt-Tuning论文笔记当前NLP任务的主流方向大致有两种:预训练模型+finetuning以及预训练模型+Prompt+预测。前者存在着种种问题:首先,预训练的训练形式与下游任务有很大的鸿沟,难以完全发挥预训练模型的潜能,而且需要大量数据去填补这样的鸿沟,直接导致这种方法在下游任务数据不足的时候学习能力差。其次,数千亿参数的预训练模型在fine-tuning的时候需要庞大的算力和显存以及很长的时间,成本太大,此外对于每一个形式的下游任务都需要fine-tuning一个新模型去进行部署,过于冗余浪费。因此,prompt learning开始获得关注,这里先对prompt learning方法做一个简单的综述。
prompt learningGPT-3提出了In-Context Learning,证明了在Zero-shot、Few-shot场景下,模型不需要学习任何额外参数,只要在推断的过程中加入一些提示,就能达到不错的效果;这说明预训练模型中存在大量甚至可以说充足的知识,预训练模型本身学会的知识让它具有小样本学习能力。但是前面提到过,使用fine- ...
T5论文笔记
T5论文笔记
T5模型:是一个端到端,text-to-text预训练模型,是个基于Transformer的Encoder-Decoder模型。
这项工作最重要的贡献是给整个NLP预训练模型领域提供了一个通用框架,将所有NLP任务都转化成Text-to-Text(文本到文本)任务,用同样的模型,同样的损失函数,同样的训练过程,同样的解码过程来完成所有NLP任务,正如论文里所说的“introducing a unified framework that converts every language problem into a text-to-text format”。
作者公布了T5的代码模型:https://github.com/google-research/text-to-text-transfer-transformer,和C4数据集:https://www.tensorflow.org/datasets/catalog/c4。
模型为了解决Text-to-Text问题,目前主要有Encoder-Decoder、Languagemodel和Prefix LM三类结构 ...
GPT-3论文笔记
GPT-3论文笔记
扩展语言模型可以大大提高few-shot的性能(GPT-2的效果差强人意),有时可以跟进行过fine-tuning的sota方法媲美。
对所有子任务,GPT-3都没有经过任何的梯度更新或者微调,直接用预训练模型测试表现(有工作[Language models are unsupervised multitask learners]证明了可以用由zero-shot模型转变来的预训练语言模型执行标准NLP任务)。
fine-tuning指的是给许多任务相关的有标签数据进行训练,训练过程中会更新参数。few-shot指的是在推断时给K个有标签数据,但是并不对其进行权重参数的更新。one-shot就是将few-shot中的K设置为1。zero-shot则是K=0。
下图中可以看到zero-shot、one-shot、few-shot三种方法的表现随着参数或者in-context learning中例子数量的增加而提高。
整个模型的训练过程如下图所示:
数据与处理Common Crawl是一个很大的公开数据集,但是包含太多脏数据,因此需要对其进行过滤 ...
Concealed Object Detection
论文笔记《Concealed Object Detection》
这篇论文是2021TPAMI的论文,也是2020年CVPR的oral论文Camouflaged Object Detection的改进。本文首先回顾一下其前身SINet,以及作者的另一篇用于息肉分割的伪装目标检测论文PraNet,最后再介绍SINet-V2。
SINet。生物学研究表明,捕食者在狩猎时,首先会判断潜在猎物是否存在,即会搜索猎物;然后,捕食者可以识别目标动物并进行捕食。 基于这个事实,作者提出了SINet——它包括两个主要模块:搜索模块( search module,SM)和识别模块( identification module,IM),前者负责寻找伪装的物体,而后者则用来精确地检测它。SINet的网络结构如下所示。
实验早已证明浅层的低级特征保留空间细节,用于构建目标边界,而深层的高级特征保留语义信息,用于定位目标。 由于神经网络的这种固有特性,作者将提取的特征划分为低级(2层),中级(1层),高级(2层); 并通过拼接,上采样和下采样操作将它们组合起来。
在SM模块中,在5层卷积的基础上,将[X0 ...
PraNet Parallel Reverse Attention Network for Polyp Segmentation
论文笔记《PraNet Parallel Reverse Attention Network for Polyp Segmentation》
设计了并行反向注意力网络(parallel reverse attention network,PraNet)。该模型的效果相比UNet家族有很大的提升,提升程度如下图所示。
总的来看,目前看到的两个效果最好的PraNet和SINet-V2都是采用了粗糙定位再加精确分割的手段来进行伪装目标检测。PraNet的模型结构如下图所示。
设计了并行部分解码器(parallel partial decoder,PPD),该模块会聚集高维特征,然后基于组合特征生成一个全局图作为后续组件的初始引导。
设计了反向注意力模块(reverse attention,RA)来挖掘边界线索。作者没有聚合来自所有层次的特征,而是在三个并行的高级特征中自适应地学习反向注意力,不断地从高层输出特征中擦除前景对象的方式来逐步挖掘互补区域和细节。具体操作是将深层中输出的特征图上采样激活获得预测图,然后翻转,如第一幅图所示,再通本层特征图相乘,即可擦除目前已知的前景区域。 ...
2022-10-24论文笔记
论文笔记《Deep Texture-Aware Features for Camouflaged Object Detection》
TANet通过构建多个纹理感知细化模块,学习深度卷积神经网络中的纹理感知特征,来放大伪装目标与背景之间的细微纹理差异,用于伪装目标检测。纹理感知细化模块计算特征响应的协方差矩阵以提取纹理信息,此外作者还设计一个亲和力损失学习一组参数,有助于分离伪装目标和背景之间的纹理,并采用边界一致性损失来探索目标的细节结构。
挪用了残差细化模块(residual refine blocks,RRB)对不同层次的特征图进行细化,增强细节,去除背景噪声。
设计了纹理感知细化模块(texture-aware refinement module,TARM)来放大伪装物体与背景之间的纹理差异,从而显著增强了伪装物体的识别能力。先用多个1$\times$1卷积获得多种特征图,这些特征图会在后面的操作中逐步学习纹理的不同方面。接着计算每个位置的不同通道间的协方差矩阵,通过该矩阵捕捉卷积特征之间的关联(如特征的组合、共现等),具体操作是将某个位置的C维向量和其转置相乘,由于 ...
2022-10-17论文笔记
论文笔记《Zoom In and Out: A Mixed-scale Triplet Network for Camouflaged Object Detection》
提出了混合尺度的三联网络——ZoomNet,它模仿人类在观察模糊图像时的行为,即放大和缩小。具体而言,ZoomNet采用缩放策略,通过精心设计的尺度整合单元和层次化混合尺度单元学习具有判别力的混合尺度语义,充分挖掘候选对象与背景环境之间的细微线索。此外,考虑到难以区分的纹理带来的不确定性和模糊性,构造了一个简单而有效的正则化约束——不确定性感知loss,以促进模型在候选区域准确地产生更高置信度的预测。
《Learning Calibrated Medical Image Segmentation via Multi-rater Agreement Modeling》
在医学图像分割中往往会有多位评分者进行标注,如果只用其中一位的标注进行训练那么在其他标注上进行测试的效果就会比较差。以往的工作中通常采用的多数投票法或者首选评分法,但是这两种方法都忽略了多评估者注释中异同点中包含的的丰富信息。为了解决这个问题, ...
2022-9-26论文笔记
论文笔记《Cascade Graph Neural Networks for RGB-D Salient Object Detection》
提出了级联图神经网络(CAS-GNN),可以通过一组级联图全面地提取和推理这两个数据源之间的相互作用,以学习RGB-D SOD的强大表示。CAS-GNN分别处理这两个数据源,并采用一种新的级联图推理(CGR)模块来学习强大的密集特征嵌入,从中可以很容易地推断出显著性图。与以前的方法相比,对互补数据源之间的高级关系的明确建模和推理使我们能够更好地克服诸如遮挡和歧义之类的挑战。
CAS-GNN包含多个图,每个图都被用于处理一个特定级别的跨模态推理。每一个图都包含两种基础类型的节点:几何节点储存了深度特征,外观节点储存了RGB相关特征。每条边连接两种节点:同一模态不同尺度的节点或者不同模态但是同一尺度的节点。此外,为了增强对多级特征的推理能力,作者将前面的图合并为下面的级联图的两个域特定的引导节点。因此,整个模型共有三种类型的节点。
对于多尺度节点嵌入。使用金字塔池化模块PPM、一个卷积层和一个插值层来提取两个模态的多尺度特征,作为初始的节点表示 ...