首页 > 编程知识 正文

sota的范围(乙肝五项是查什么的)

时间:2023-05-05 12:24:34 阅读:98134 作者:4420

机器心脏释放

机器智信编辑部

在2020年CVPR全球计算机视觉峰会上,百度共收到22篇论文。在这篇口语论文中,百度提出了ActBERT,它可以从叙事视频中学习,做出无监督的视频-文本关系,并提出了纠缠编码器来编码局部区域、全局动作和语言字符。最后,获得了五个相关评估任务的SOTA结果。

ActBERT在下游视频和语言任务,即文本和视频片段检索、视频描述生成、视频问答、动作步骤定位等方面明显优于其他技术。展示了其在视频文本表示方面的学习能力。

论文:《ActBERT: Learning Global-Local Video-Text Representations》

论文链接:http://OpenACCESS . the _ 2020/论文/朱_ Actbert _ learning _ global-local _ video-text _ presentations _ CVPR _ 2020 _ paper.pdf。

现有的BERT训练方法一般通过量化视频帧的特征,并通过聚类离散化将视觉特征转化为视觉词来对视频语言进行建模。然而,详细的本地信息,如交互对象,可能会在聚类过程中丢失,这使得模型无法进一步发现视频和文本之间的细粒度对应关系。在本文中,ActBERT被用来从成对的视频序列中挖掘全局和局部的视觉线索和文本描述。它利用丰富的上下文信息和细粒度的关系来建模视频-文本联合,其贡献如下:

首先,ActBERT集成了全局动作、局部区域和文本描述。诸如“切割”和“切片”等动作有利于各种与视频相关的下游任务。除了全局动作信息外,还结合局部区域信息提供细粒度的视觉线索,区域提供关于整个场景的详细视觉线索,包括区域对象的特征和对象的位置。该模型可以从区域信息中受益,以获得更好的语言和视觉一致性。

其次,纠缠编码器模块编码三个元素,即全局动作、局部区域和语言描述。新的纠缠编码模块从三个来源学习多模态特征,以增强两个视觉线索和语言之间的交互功能。在全局动作信息的指导下,将视觉信息注入到语言模型中,并将语言信息整合到视觉模型中。纠缠编码器动态选择合适的上下文来促进目标预测。

此外,还提出了学习ActBERT的四个训练任务。经过预训练后,ActBERT被转移到与视频相关的五个下游任务中,并定量显示ActBERT取得了最先进的表现。

算法

纠缠编码器

纠缠编码器包括三个编码器,其输入来自三个来源。为了加强视觉和语言特征之间的交互,纠缠编码器将视觉信息注入语言编码器,并将语言信息整合到视觉编码器中。具体来说,纠缠编码器使用运动信息来催化相互通信。

C_w是混合语言表征,C_r是引导后的地域特征。然后,C_w使用线性层来获得新的键值对。生成的键值对与A编码器和R编码器的原始键值对堆叠在一起。这样,视觉特征和语言特征进一步联系在一起。

训练模式

本文提出了四种模型学习的训练方法。首先,一个掩蔽语言建模任务。在本文中,我们使用区域对象和全局动作中的视觉信号来发现视觉和语言实体之间的关系。该任务迫使模型从上下文描述中学习,并提取相关的视觉特征来帮助文本预测。当动词被移除时,模型应该使用动作特征来更准确地预测。去除局部名词后,局部区域特征可以提供更多的上下文信息。

二、蒙面动作分类任务。该任务是根据语言和对象特征预测移除的动作标签。清晰运动预测有两个好处。1)可以挖掘长期动作序列的线索,这个任务可以更好的区分动作执行的时间序列;2)使用区域对象和语言文本可以实现更好的跨模态建模。该任务可以增强预训练模型中的动作识别能力,并可以进一步扩展到许多下游任务。

第三,对掩蔽对象进行分类的任务。在该任务中,局部区域对象特征被随机移除。其目标分布是通过将该区域输入到同一目标检测模型中而获得的激活值。优化目标是最小化两个分布之间的KL差。

第四,交叉模式匹配。类似于下一个句子预测(NSP)任务,在第一个符号[CLS]的输出之后添加线性分类器,以指示语言和视觉特征之间的相关性。如果得分高,说明文字对视频剪辑的描述很好。

973f6737f49cae22?from=pc">

实验

实验设置

ActBERT 在 HowTo100M 数据集上进行预训练。该数据集涵盖了总计 23,611 项任务,例如维护和修理、动物营救、准备食材等。在五个任务上评测了 ActBERT 的性能。

视频描述生成实验结果

ActBERT 在所有指标上均优于 VideoBERT,表明预训练学习到更好的视频表示,也表明 ActBERT 对视频序列建模的有效性。

动作分割实验结果

ActBERT 明显优于基准方法。它表明预训练的 ActBERT 可以仅处理视觉。当删除区域信息时,可以观察到性能下降了,表明详细的局部线索对于密集视频帧标记任务有重要作用。

动作步骤定位实验结果

ActBERT 的表现明显优于 TVJE,即平均提升有 7%。这个结果甚至比监督学习的性能还要好。为了与 TVJE 有公平的对比,本文删除了局部区域信息,这个结果也明显优于 TVJE,证明 ActBERT 预训练的有效性。完整 ActBERT 模型进一步提高了 4%。

文本视频片段检索与视频问答实验结果

不需要复杂的联合视频文本建模,ActBERT 明显优于现有其他方法。表明 ActBERT 在大规模数据集上的强大学习能力。

结论

ActBERT 以一种自我监督的方式进行联合视频文本建模。该方法直接为全局和局部视觉信息建模,以进行细粒度的视觉和语言关系学习。ActBERT 将信息的三个来源作为输入,并使用了新颖的纠缠编码器进一步增强三个源之间的交互。五个视频文本基准测试的定量结果证明了 ActBERT 的有效性。未来可以通过设计更强大的视频和文本学习模块来提升 ActBERT,并将其应用到视频动作识别和检测中。

参考文献:

Linchao Zhu, Yi Yang, ActBERT: Learning Global-Local Video-Text Representations, CVPR 2020.

Antoine Miech et al., HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips, ICCV 2019.

Chen Sun et al., VideoBERT: A Joint Model for Video and Language Representation Learning, ICCV 2019

Linchao Zhu, Zhongwen Xu, Yi Yang, Bidirectional Multirate Reconstruction for Temporal Modeling in Videos, CVPR 2017.

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。