首页 > 编程知识 正文

姿态检测传感器,行为锚定等级评价法的优缺点

时间:2023-05-05 04:10:35 阅读:31480 作者:3587

姿势估计和行为识别作为计算机视觉的两个领域,对新人来说容易混淆姿势估计和行为识别两个概念。

33558 www.Sina.com/(pose estimation )是一种计算机视觉技术,用于检测图像或视频中人物的样子,可以确定某人身体的某个部分在图像中的出现位置。 也就是说,人体关节在图像和视频中的位置问题也可以理解为可以在所有关节姿势的空间中寻找特定的姿势。 简而言之,姿态估计的任务是重建人的关节和躯干,其难点主要是降低模型分析算法的复杂性,能够适应多种情况、环境(光照、遮挡等)。 由于姿势估计的输出是高维姿势向量而不是某一类别的标量,因此需要通过这种方法来学习从高维观测向量到高维姿势向量的映射。

估计姿势分为四个子方向。

33558 www.Sina.com/(单个人化) ) ) ) )。

在一个人的姿势推断中,首先识别行人,然后在行人区域的位置内找到必要的关键点。 典型的数据集包括MPII、LSP、FLIC和LIP,每个数据集都有不同的精度指标。 其中MPII是当前单人姿态估计中最常见的benchmark,采用PCKh指标,被认为是预测的关键点和GT标注的关键点通过head size normalize后的距离,目前算法为93.9%

33558 www.Sina.com/(多个人操作系统) )。

单人姿态估计算法往往用于多人姿态估计,一般有两种方式。 上下先找到照片中的所有行人,再对每个行人进行姿势估计,每个人都会寻找关键点; bottom-up首先查找图像中的所有parts (头、手、膝盖等关键点),然后将这些parts组装成每个行人。

测试集中主要有COCO、CrowdPose等。

33558 www.Sina.com/(视频posetracking ) )。

把姿势扩展到视频上,就有人体姿势跟踪的任务。 主要对视频场景中的所有行人进行人体和各个关键点的跟踪。 这是一项综合难度较大的工作,人体关键点视频中的临时运动比行人跟踪更大。 例如,行人的手和脚不停地摆动,所以跟踪比跟踪人体边框难度更大。

主要数据集是PoseTrack

3358 www.Sina.com/http://www.Sina.com/(3dskeletonestimation ) )。

将人体姿势向3D方向扩展是输入RGB图像、输出3D的人体的关键。

经典数据集Human3.6M

除了输出3D的关键点以外,还有一项工作是开始研究3D的shape,如数据集DensePose。 而且,从长线来看,这是一个非常有价值的研究方向。

2D姿态估计器333到354根据RGB图像估计每个关节的2D姿态(x,y )坐标。

根据3D姿势推定——RGB图像推定3D姿势(x、y、z )坐标.

行为识别可以通过关于姿势估计的研究成果来实现,例如HDM05这样的姿势库可以提供各帧影像中的人的骨骼信息,并根据骨骼信息来判断运动的种类。

姿态估计

人体姿势推断文献综述简要介绍了约10种方法

3359 blog.csdn.net/bock song/article/details/81037059

深度学习人体姿态估计算法综述

33559 www.infoq.cn/article/6b TG0-1CRF MB7SVR ga 6h

2019深度学习人体姿势估计指南((已翻译的文章) ) ) ) ) ) ) ) ) ) ) ) 65

3359 blog.csdn.net/u 010636181/article/details/90036365

3359 nano nets.com/blog/human-pose-estimation-2d-guide /

33558 www.Sina.com/(操作检测/r egnition ),最终得到图像或视频片段中目标的行为类别。 视频中的人体行为识别主要分为两个子方向。

一种是对某个视频片段进行分类。 ((3358 www.Sina.com/http://www.Sina.com/() ) ) )在常用的数据库中,首先划分运动,使其成为一个

一是不仅要知道一个动作是否发生在视频中,还要知道动作发生在视频的哪个时间(包括开始时间和结束时间)。 (3358 www.Sina.com/http://www.Sina.com/)。 其特点是需要处理较长的未分割视频,视频中产生很多噪声,目标移动通常只占视频的一小部分。 也可以说是对视频指定行为的检测

宏达电脑

n Recegniton和Temporal Action Localization之间的关系,同image classification和object detection之间的关系比较像。基于image classification问题,发展出了许多强大的模型,比如ResNet、VGGNet等,这些模型在object detection的方法中起到了很大的作用。同样的,action recognition的相关模型如two-stream、C3D、iDT等也被广泛的应用在action detection中。

 

 

参考文献

行为识别的综述博客:

https://blog.csdn.net/neu_chenguangq/article/details/79504214

给出了行为识别的一些概述及资源合集(文章、代码)

https://blog.csdn.net/Gavinmiaoc/article/details/81179630

时序动作检测综述

http://www.pianshen.com/article/5760138121/

 

常用的行为分类的数据集:

UCF101:来源为YouTube视频,共计101类动作,13320段视频。共有5个大类的动作:1)人-物交互;2)肢体运动;3)人-人交互;4)弹奏乐器;5)运动。

HMDB51:来源为YouTube视频,共计51类动作,约7000段视频。

骨架数据库,比如MSR Action 3D,HDM05,SBU Kinect Interaction Dataset等。这些数据库已经提取了每帧视频中人的骨架信息,基于骨架信息判断运动类型。

 

常用的行为检测的数据集:

THUMOS2014:在行为检测任务中只有20类动作的未分割视频是有序行为片段标注的

MEXaction2:骑马和斗牛

ActivityNet:目前最大的数据集,同时包含分类和检测两个任务,包含200个动作类别

 

行为识别的难点:

(1)类内和类间差异, 同样一个动作,不同人的表现可能有极大的差异。

(2)环境差异, 遮挡、多视角、光照、低分辨率、动态背景.

(3)时间变化, 人在执行动作时的速度变化很大,很难确定动作的起始点,从而在对视频提取特征表示动作时影响最大。

(4)缺乏标注良好的大的数据集

 

行为识别领域内的重要方法

传统方法——iDT

利用光流场来获取视频序列中的一些轨迹,再沿着轨迹提取HOF、HOG、MBH、trajectory等特征。HOF基于灰度图计算,另外几个基于optical(密集光流)计算。最后对其进行特征编码,再基于编码结果训练SVM分类器。iDT利用前后两帧之间的光流和surf关键点进行匹配,从而消除或减弱相机运动带来的影响。

优点:稳定性最高、可靠性高

缺点:速度慢

 

深度学习——Two-Stream(双流CNN

对视频序列中每两帧计算密集光流,得到密集光流的序列(即temporal信息)。然后对于视频图像(spatial)和密集光流(temporal)分别训练CNN模型,两个分支的网络分别对动作的类别进行判断,最后直接对两个网格的class score进行fusion(包括直接平均和SVM

两种方法),得到最终的分类结果。

优点:精度高,在UCF-101上达到0.96的准确率

缺点:速度慢

 

深度学习——C3D(3D卷积)

通过3D卷积操作核去提取视频数据的时间核空间特征。这些3D特征提取器在空间和时间两个维度上操作,因此可以捕捉视频流的运动信息。然后基于3D卷积提取器构造一个3D卷积神经网络,这个架构可以从连续视频帧中产生多通道的信息,然后在每一个通道都分离地进行卷积和下采样操作。最后将所有通道的信息组合起来得到最终的特征描述。

优点:速度快,300fps

缺点:精度低,在UCF-101上为0.85准确率

 

参考文献

三种方法的对比引自于:

https://www.jianshu.com/p/2c2c7e96b9b7

按照时间顺序整理了部分视频行为检测&分类方案

https://www.jianshu.com/p/583c26bbb675

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。