计算机视觉动作识别,心理学肢体动作识别

读 I. Laptev, M. Marszałek, C. Schmid, and B. Rozenfeld. Learning realistic human actions from movies. In CVPR, 2008.

这篇文章的目的是提出一种在现实和多变的视频中识别动作的方法。鉴于手动标注视频有很大的困难，作者提出一种在电影中对人体动作类型进行自动标注的方法。这种方法是基于script alignment and text classification来对动作进行标注的。另外作者还把空间金字塔模型扩展成了时空金字塔。下面介绍时空金字塔。

首先，使用Harris角点检测器检测兴趣点。

然后，用多尺度的方法在多个时空尺度上提取特征，其中，，，，。

每个兴趣点周围的volume的大小与检测尺度有关，其中。每个volume被划分成为个cuboid，其中。在每个cuboid内计算HoG和HoF，把归一化好的方向直方图向量串联起来就构成了最终的descriptor （HOG+HOF）。

最后的到在KTH数据集上最好的识别率为91.8%，所用的descriptor以及的大小为HoF(1*1*2)，(1*1*3)。