首页 > 编程知识 正文

semantics的好处,at cerro portezuelo the task

时间:2023-05-05 05:42:45 阅读:174913 作者:2626

paper :2004.06165.pdf (arxiv.org ) )。

code3:microsoft/粗犷鞋3360粗犷鞋andVinvl(github.com) ) ) ) ) ) ) )。

多模式学习入门最近,视觉和语言预训练(Vision-Language Pretraining,简称VLP )在解决多模式学习方面取得了很大的进步。 这种方法最典型的是下面的两个步骤。

预训练:是基于Transformer的大模型(例如,用于大量“图像-文本”数据(称为图像-文本对或“字符对”) )上的上下文

微调:微调预训练模型的跨模态表达,可满足各种下游视觉任务和语言任务

摘要

关键问题:现有的VLP方法只是结合图像区域特征和文本特征作为模型的输入进行预训练,没有为模型提供任何线索。 希望模型能够利用Transformer自提醒机制,花相当大的力气学习图像文本的语义对齐方式。

这是一种使用解决方法:图像中检测到的物体标签作为定位点的新型多模态预训练方法的粗糙鞋,路线的学习明显简化了。 在650万文本-图像对的公共语料库中预先训练粗犷的鞋模型,在下游任务中微调,在6个完美的视觉语言理解和生成任务中创造了最新技术。

关键字:对象语义、视觉和语言、预培训

1生产

VLP :可以从大量的图像和文本对中有效地学习通用表达,并针对特定的任务对VLP模型进行微调以实现SOTA。

通过使用诸如Faster R-CNN的预先训练的物体检测器(object detector ),可将图像表示为与物体标签相关联的视觉区域特征的集合。 因此,可以使用BERT等预训练语言模型将句子表示为一系列的单词嵌入。 重要的是,使用来自事先训练好的BERT的对应词嵌入粗犷的鞋中,构建物体标签的表示。

相关工作视觉语言预训练现有V L问题(视觉问答; a、文字检索、图像说明),使用BERT这样的目标来学习从语言标签的嵌入和视觉领域的特征相结合的序列中的交叉模式表现。 他们严重依赖Transformer的自我注意机制来学习协同特征,这些特征在两种模式下都有相应的上下文。 例如,初始努力(如[ 22,38 ] )提出了基于two-streamandthree-stream transformer的框架,并分别通过合作来融合这两种模式。 Chen等[5]全面研究了不同预训练目标对学习共同特征的影响。 Zhou等人[46]提出了用于处理理解和生成任务的最初的统一模型,作为下游任务只使用了VQA和图像字幕。 本文将粗糙鞋模型应用于更广泛的下游任务,包括对任务的理解和生成,在大多数任务中实现了新的SoTA。 与现有的VLP方法相比,提出的粗犷鞋最突出的区别在于使用了对象标签来对齐两种模式的要素。 这样可以缓解VLP模型必须从一开始就计算模态语义定位的难题,提高学习效率。 实际上,我们的基础模型已经在很多V L任务中超越了现有的大型VLP模型。

物体标签Anderson等人[2]引入了自下而上的机制,用Faster R-CNN[28]将图像表示为一组视觉区域,每个区域都有相关的特征向量。 从而在物体层面计算注意力,成为细粒度图像理解任务的事实标准。 在正文中,建议使用对象标记来调整[2]的对象-区域特征。 [2]的对象-区域特征在预先训练的语义空间中对齐。 利用对象标签的创意已经为了理解图像而被探索[ 42,43,46 ]。 Wu等人[42]根据CNN网格区域的特征,采用预测的物体标签作为LSTM的输入,You等人[43]同时考虑了标签和区域的特征。 同时考虑标签和区域的特征。 基于由物体检测器提出的突出区域。 Zhou等人[46]根据物体检测器提出的突出区域,连接物体预测概率矢量和区域特征,作为视觉输入。 遗憾的是,这些工作中的标签没有与物体区域和文本的词同时嵌入,缺乏基础。 我们构建的物体标记和相应的地域特征和词语嵌入产生了更完整、详细的对象特征,特别是在语言实体嵌入经过预先训练的情况下。

多模态嵌入现有研究表明,V L任务可以受益于共享的嵌入空间,调整图像和文本之间的模式之间的对应关系。 Socher等[33]的初步尝试利用核化冠状病毒关联将单词和图像区域投影到一个公共空间,利用核化的典型相关分析,在评论和分割方面取得了良好的效果。 同样的想法用于图像说明[14]和基于文本的图像检索[29]。 特别是独创性工作DeViSE[8]提出了使用从无序语义信息中收集到的视觉目标,从无注释文本中收集到的语义信息中识别视觉目标。 该语义信息用于预测训练中未观察到的图像标签,在成千上万个新标签中零点预测得到了大幅改善。 从没见过视觉模型

新标签。这个想法已经被 观点在[34,15,25]中得到了扩展,表明利用预先训练好的语言学知识 对于调整语义和提高跨模式转移学习的样本效率非常有效。在这一研究思路的启发下,我们重新审视了这一想法并 建议在神经语言模型预训练的时代,利用从学习到的词嵌入中获得神经语言模型预训练时代的丰富语义。事实上,我们对novel objects的结果表明,粗犷的鞋子有助于提高预训练模型的可扩展性和通用性。

粗犷的鞋子训练方式

 

粗犷的鞋子输入数据:将图文对表示为三元组(橙色单词序列,蓝色物体标签,绿色图片区域特征)。粗犷的鞋子提出用物体来堆砌跨域语义;删除物体的话,粗犷的鞋子退化为以前的预训练方法。此三元组可以从两个角度理解:模态视角和字典视角

输入表示。将每个(图像-文本)样本定义为一个三元组(单词序列,物体标签,区域特征)。

预训练目标。根据三元组中三个项目的分组方式,我们从两个不同的角度查看输入:模态视角和字典视角。每一种视角都允许我们设计一个新颖的预训练目标:1)字典视图的掩盖码恢复损失,它衡量模型根据上下文恢复丢失元素(单词或对象标签)的能力; 2)模态视角的对比损失,它衡量模型区分原始三元组及其“污染”版本(即原始物体标签被随机采样的标签替换)的能力。

在六个任务上进行微调和评估:

Visual Question Answering (VQA)

Graph Question Answering (GQA)

Natural Language Visual Reasoning for Real (NLVR2)

Image-Text Retrieval

Text-Image Retrieval

Image Captioning on COCO dataset

Novel Object Captioning (NoCaps)

整体预训练+微调的流程:  粗犷的鞋子以三元组作为输入,以两个损失函数为目标进行预训练(在单词和标签上掩盖恢复损失,以及在标签和其他标签之间的对比损失),然后对其进行微调以实现五个理解和两个生成任务。

实验效果

为了考虑参数的利用效率,我们在下表中比较了不同大小的模型。粗犷的鞋子在六项任务上均达到了最新水平。在大多数任务上,我们的基本款模型 (base model)要优于以前的大型模型(large model),通常情况下会大大提高。它表明粗犷的鞋子具有很高的参数利用效率,我们认为部分原因是物体的使用大大简化了图像和文本之间语义对齐的学习。在这里,VLP基线方法是从UNITER, VilBERT, LXMERT, VLP, VL-BERT, Unicoder-VL, 和 12-in-1收集的。请注意,粗犷的鞋子接受了650万对的预训练,这比UNITER的918万对和IXME的960万对都少,这也说明了粗犷的鞋子的数据利用率很高。

 

结论

在本文中,我们提出了一个新的预训练方法粗犷的鞋子,该方法使用对象标签作为锚点,将图像和语言模式统一在一个共享语义空间。我们在一个有650万个文本-图像对的公共语料库上进行预训练来验证该模式。这些预训练的模型在六项既定的V+L理解和生成任务上归档了新的先进技术。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。