卷积像识别,基于卷积神经网络的像识别

简介
由于基于RGB的行为识别容易受到视角的变化以及复杂背景的干扰，从而导致泛化性能不足，很那应用到实际生活中，基于骨骼点数据的识别可以很好地解决这个问题。将人体定义为25个关键关节点的三维坐标，行为往往以视频的形式存在着，所以长度为T的行为可以用25T3来表示。
传统的行为识别
传统的基于骨骼点的行为识别是基于深度学习方法可以分为RNN和基于CNN的，RNN的方法可以将数据表示为三维的向量，然后利用LSTM来进行建模。基于CNN的方法会人工设计一些规则把骨骼点转化为一维的图像，然后利用图片分类中的模型进行识别。我们可以将每个关节点定义为图的节点，关节点之间的物理连接定义为边，在相邻帧的同一个节点加上时间维度的边，这样一个行为就可以用一个时空图来表示。
采用图卷积的形式对图进行行为识别，每个节点的邻接节点的数目是不固定的，但是卷积操作的参数是固定的，所以需要定义一个映射函数来将固定数量的参数和不定数量的节点对应起来。定义卷积核大小为3 ，三个参数分别对应于远离人体中心的点，靠近人体中心的点和卷积点本身。
ST_GCN的缺陷
图的拓扑结构是根据人体的物理结构定义的，这样定义的图并不一定适用于行为分类的任务，如果两只手之前是没有物理连接的，在途中手之间的距离可能会比较远。但是对于鼓掌这个行为，建模两只手的关系明显更为重要。神经网络是多层结构，不同的层中包含的信息也是不同的，往往的高层的网络会包含偏向语义的信息。，所以对于所有的层使用相同的物理结构是不合理的
相比于关键点的位置，人体各个肢体的方向，长度其实对于行为识别是更明显的特征
我们的方法
提出了一种双流的自适应的图卷积网络建模人体骨架并进行行为识别。
定义了三种图
1，根据人体的物理结构定义的图，对所有的卷积层和所有的样本都是相同的
2，根据数据库设计出来的适应于行为识别任务的图，作为网络的参数在训练的过程中会根据分类损失不断地更新，对于每一个卷积层都是不同的，对于不同样本是相同的。
3自适应的图，借鉴了双线性注意力机制的形式来设计，首先会将输入通过函数降维映射到一个低维的空间，然后通过相乘获得每两个点之前的特征相似性，然后将两个相似性矩阵通过softmax归一化作为最后的邻接矩阵。
针对第二个问题，在实验中单独提取人体的骨骼的信息，表示关节点之间的向量，借鉴了行为识别中的双流框架，将骨骼的信息，使用另外一个自适应的图卷积神经网络来建模。然后使用骨骼流于关节点（joint）流的softmax层分数融合来得到最终的分类结果。
骨骼点数据往往包含噪声，首先对数据进行一些去燥操作，分为四步

基于谷歌标识符将同一个人的骨架对齐，摄像头一般会为每个人体分配一个body ID，由于摄像头的误检，每个人在不同的帧里面往往分配的ID是不一样的，为了保持一致性，我们会在每一次id消失的时候，检测出是否有新的出现，如果有就认为新的是误分类的。基于骨架能量的过滤
骨架点数据经常会误检，为了过滤掉这些误检，我们定义了一个骨架点序列的能量的概念，就是所有的关节点三三维时间坐标子时间维度上标准差的平均值，物体通常是静止的，所以误检的数量一般低于人体的数量，会设定一个阈值过滤掉这些物体坐标数据归一化
为了统一数据的分布，减少人体中心在图像中的位置带来的影响，简化模型训练的过程，对于每一个序列，我们会以第一帧第一个人的中心骨骼点为坐标系的原点，将其他归一化到这个坐标系中。视角归一化
为了减少视角对于模型训练的影响，我们将每一帧的人体都旋转到一个固定的角度，第一帧的第一个人体为基准求一个旋转的矩阵，是的左肩和右肩连成的直线与坐标系的x轴平行，这个人体的脊柱和坐标系的z轴平行。