首页 > 编程知识 正文

cge模型(2019高达十佳模型)

时间:2023-05-04 11:38:33 阅读:66261 作者:4789

作者观点:

使用足够大的视频行为识别数据集进行训练(Kinetics )是否可以提高模型在其他数据集(HMDB-51、UCF-101 )上的性能?

论文的核心内容:

不同模型的该方法(见观点)性能提高程度差异较大,提出了two-stream inflated 3d convnet (i3d )模型的实验分析,目前最好的行为识别方法在数据集Kinetics中性能提高了多少,其次I3D模型之所以如此优秀,是因为该模型具有很高的时间分辨率。 也就是说,输入的训练帧数多。 (每秒25帧训练64帧视频剪辑,测试时处理所有视频帧。 这样可以捕获细分的时间行为结构。 )

论文主要贡献:

提出一种新的模型I3D,基于2D卷积网络增强版。 可以在视频行为识别数据集上训练(Kinetics ),并且所得网络可以提高模型在其他数据集(HMDB-51、UCF-101 )中的性能。

展望/需要解决的问题:

将Kinetics预训练用于语义视频分割、视频对象检测、光流计算等其他视频任务是否有益尚待观察。 【研究要点! 】作为未来的工作,我们计划用Kinetics而不是miniKinetics来重复所有的实验,是否使用ImageNet的预培训,以及探索inflat的其他2D ConvNets

1.Introduction I3D (以最新的图像分类模型为基础结构,将kernels膨胀(inflate )结合到3D Conv上。 基于2D卷积网络的扩展版。 通过将非常深图像的卷积分系统的卷积内核和池化内核扩展到3D,可以从视频中学习无缝的时空特征提取器,并利用成功的ImageNet架构设计到参数。

2 actionclassificationarchitectures 2.2 theoldii :3 dconvnets

在本文中,作者提出了C3D的变体,包括8个卷积层、5个池化层和2个完全连接层。 输入是从视频中截取的112*112共计16帧的片段。 使用“批规范化”(batch normalization )方法。 与C3D不同,此方法在第一个池化层中将temporal strde用于2而不是1。 这样可以减少内存消耗,并处理大量数据。

2.3.theoldiii : two-stream networks

I3D模型也借鉴了Two-Stream,结合Inception-V1,网络输入是5个连续RGB帧和相应的光流片段,相距10帧。 在Inception-V1的最后一个平均合并层(对应于577特征网格、时间、x和y维度)之前的空间和运动特性通过具有512个输出通道的333d卷积层,然后是333d最大池层

2.4 the new : two-stream inflated 3d convnet

可以直接从3358www.Sina.com/RGB流学习时域信息模式,当加入输入光流时,这一性能得到进一步提高。

Inflating 2D ConvNets into 3D

将简单成功的2D分类器扩展到3D卷积。 卷积层(N*N )和池化层(N*N )均增加时间维度(N*N )。

">Bootstrapping 3D filters from 2D Filters

3D卷积核的参数可以通过ImageNet模型学习,通过将ImageNet上的2D图片重复叠加成一个连续的视频。

 

 

Pacing receptive field growth in space, time and network depth

这个boring video fixed-point使得调整网络变得相当灵活,可以根据时间维度膨胀池化层操作,也可以设置卷积层或池化层的temporal stride。

 

Two 3D Streams

虽然I3D网络能直接从RGB输入中学习运动特征,但它始终只是执行前馈计算,而光流算法在某种意义上是周期性的计算。所以实验设计,分别在RGB和光流两种输入上训练I3D,最后作平均再预测。

 

 

2.5 Implementation Details

除了C3D模型之外,所有模型都使用ImageNet预训练Inception-V1的到基础网络。除了最后一层卷积层外(需计算出全连接层得到分类结果),在模型中的其它卷积层后,紧跟着batch normalization(批处理)和 ReLU激活函数。

 

3.The Kinetics Human Action Video Dateset

大致介绍Kinetics数据集,本文并没有使用完整的Kinetics进行训练。而是使用其中数据集的小一部分(miniKinetics)。

 

 

 

4.Experimental Comparison of Architectures

实验比较第二部分中的几种结构在不同数据集下的表现。

 

实验得到几个很有价值的信息:

在ImageNet上进行模型预训练,同样会对3D ConvNets有帮助。(在别的视频处理应用中,能否用得上??)实际探究Kinetics数据集发现,其中视频具有更多的摄像机运动,这可能Flow的工作更加困难。所以在miniKinetics上的Flow精度低于RGB精度。

从上图可看出,I3D模型比其他模型在对Flow输入处理时更有优势。(可能是I3D有longer temporal receptive 和更集成的时间特征提取机制)

 

  作者认为,RGB流具有更多的辨别力,相反却很难用自己的眼睛从Flow流(Kinetics数据集)中辨别视频中的动作。这也许是未来研究的一个方向——整合某种形式的运动稳定到这些架构中。

 

 

 

5. Experimental Evaluation of Features

  这部分主要内容是,研究Kenetics上训练的网络的泛化能力。

文中设计了两种方法:

(这两种方法的网络都在Kenetics上预训练)

通过固定网络的权重,使用网络模型处理UCF-101/HMDB-51数据集,得到结果①。接下来使用UCF-101/HMDB-51的训练集训练网络模型的multi-way soft-max 分类器,然后在测试集上验证。用UCF-101/HMDB-51 微调网络,然后在测试集上评估性能。

 

以上模型中,除了3D-ConvNet之外,都是基于Inception-v1模块,而且在ImageNet上预训练。

Original:在当前数据上训练,再进行验证。

Full-FT:在miniKinetics上预训练,再在各自处理的数据集上微调。

 

在mini-Kenetics(固定)预训练后训练模型的最后几层也比直接训练UCF-101和HMDB-51的I3D模型具有更好的性能。

 

5.1 Comparison with the State-of-the-Art

在UCF-101和HMDB-51上,比较I3D与现有最好的模型的性能,

 

 

6.Discussion

本文证明在视频处理方面也能像图片处理一样,进行迁移学习。即在更大的数据集(Kenetics)上预训练,然后提高网络在其他数据集(UFC-101/HMDB-51)上识别性能。对于其他视频任务(例如语义视频分割,视频对象检测或光流计算)使用Kinetics预训练是否有益仍有待观察。【研究点!!!】

作为未来的工作,我们计划使用Kinetics而不是miniKinetics重复所有实验,使用和不使用ImageNet预训练,并探索膨胀其他状态的2D ConvNets

 

【论文笔记下载地址】

链接: https://pan.baidu.com/s/1sU4lr8mjCCh2llR263_YgQ

提取码: 64mq

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。