2003年8月份2021年多大,2021.1.17星期几

视频分类为中等粒度，最后达到精细粒度的关键技术：视觉/运动/语音特征表达与融合；视频大数据快速准确的数据集处理是一个重要的发展条件，sport-1M运动信息剧烈，可作为训练数据集的双流网络方法Motivation。两个视觉信息处理通道，一个侧重于静态视觉场景/目标，另一个侧重于运动。 TSN总结：神经网络同步建模静止图像和运动特征提取；在视频分类任务中，探索了实现深度学习方法超越传统方法的视觉与运动信息的有效融合方法。静止图像特征聚合LRCN，性能不突出，方法具有开拓性。

ActionVLAD，视频类由多个局部片段的行为/事件组成，图像序列和光流序列分别提取特征，将特征联系起来进行重新融合分类(多实例学习是否可以参与)。

迁移群集

总结： CNN提取静态视觉信息，通过特征均值/LSTM/特征拼接/聚类建模不同视频帧之间的时间序列关系；根据视频的特点设计了更细致的网络结构，提高了分类精度

-多级信息

- attention 3d卷积方法C3D P3D I3D图像预训练提高性能总结：利用3d卷积提取视频特征更自然； ECO的主要工作

提出了一种eco网络，有效解决了视频长距离相关性比较廉价的难以建模问题，提供了两种建模方式运动增强的RGB分类的主要工作：采用转模态的只有蒸馏技术，静止图像网络中编码运动信息；在仅输入图像序列的情况下，可以提取运动相关的特征，得到更好的结果；避免了复杂的光流计算，大大节约了计算时间。 SlowFast的速度信息和网络主要工作：低帧率慢通道捕获语义信息，高帧率轻量化设计的高速通道捕获和学习快速变化的运动信息流(利用网络进行光流学习) 欢迎来到模块模拟rv-l1光流计算方法；时序金字塔(tpn )作为一个提高性能的模块，可以参与网络趋势：以加速培训。

挂在成熟模块上

避免使用复杂的光流计算加速测试

轻型骨干网设计轻量化的视频分类模型

引入人体关键分布等新的信息模式

空间：图模型建模人土不同部位、人与物体的关系；时间序列：建模目标中高层的语义变化(如形状) ) ) )。

引入描绘人体不同部位的动态骨骼图，建立图模型。