在前面的专栏中，我们介绍了基于图片/视频的面部表情识别的相关内容。在这两个领域中，我们使用了解决分类问题的方法来识别面部表情。在本文中，我们将介绍通过回归来理解表达式的方法。——基于连续模型的人脸表情识别。

编辑|门平兰

1 基本概念

在前面的面部表情识别专栏中，我们讨论并分析了基于不同数据类型(图片/视频)的面部表情识别。在前面提到的面部表情识别研究中，数据的面部表情标签被定义为几个基本表情，基于图片/视频的面部表情识别方法也侧重于“表情分类”。这种将表情转换为离散标签，以分类的形式识别表情类别的方法，是目前大多数人脸表情识别研究中最主流的研究方法。但是，人的情感是非常复杂的，人脸所传达的表情很难被绝对定义为一个特定的范畴，因此简单的分类模型并不能很好地反映人们在实际场景中的真实感受。针对这一问题，杜等[1]提出了复合面部表情的概念，而李等[2]则用复合表情打开了自然面部表情数据集RAF-DB(图1)。同时，王等[3]和梁等[4]提出了不同的细粒度面部表情分类方法(如图2所示)，并构建了相关数据集。复合表达和细粒度表达的概念确实有助于计算机更深入地理解人类的表达，比如区分“惊讶”和“惊奇”(“惊骇”—“惊奇”—“惊讶”)，这在传统的表情分类方法中是很难实现的。然而，无论定义了多少表达类别，都没有办法反映某种情绪的强度。比如，很难通过分类来区分开心和有点开心。因此，为了解决上述问题，许多研究人员考虑使用连续模型来定义表情符号。

图1 | RAF-DB中的一些数据示例[1]

图2 |不同的细粒度面部表情分类方法[2，3]

在基于连续模型的人脸表情识别领域，二维连续模型[5]是定义表情最常用的方式(见图)。它将表达定义为——个配价和觉醒两个连续的尺度，其中配价反映情绪的愉悦/悲伤程度，觉醒反映情绪的兴奋/集中程度。这种表达式定义的优势在于，借助连续的数值，可以区分不同表达式的细微差别，从而帮助计算机更好地理解人类的表情和情绪。除了二维连续模型，还有三维连续模型[6]，比二维连续模型更具优势，常用于视觉情感分析(VEA)和基于自然语言的情感分析。然而目前基于连续模型的人脸表情关联研究并不多，主要原因是标注连续标签不仅对标注人员的要求更高，而且标注的时间也要长得多。幸运的是，近年来，越来越多的相关数据集逐渐开源。同时，围绕基于连续模型的人脸表情识别领域，也有很多会议话题和比赛。未来，这一领域的研究可能会更频繁地出现在学术期刊/会议上，甚至出现在我们的日常生活应用中。

图3 |二维连续情绪模型[7]

2 常用数据集

1.远程协作和情感(RECLEAA)数据库[8]

链接：https://diuf.unifr.ch/main/diva/recola/

-数据收集方法：46名法语志愿者在实验室环境中收集多模态情绪数据集，包括音频、视频、心电图(ECG)和皮肤电生理活动(EDA)数据。

-数据集大小：视频数据总时长9.5h，分辨率1080*720。

ea?from=pc">

图4｜RECOLA中数据标注截图[8]

2.AFEW‑VA Database [9]

链接：https://ibug.doc.ic.ac.uk/resources/afew-va-database/

---数据采集方式：对AFEW（自然状态下基于视频的人脸表情识别数据集）[10]中的部分数据进行重新标注

---数据集大小：600个视频数据，每个视频帧数长短不一，最短的在10帧左右，最长的超过120帧

图5｜AFEW‑VA中某个样本示例[9]

3.AffectNet [11]

链接:http://mohammadmahoor.com/affectnet/

---数据采集方式：采集自互联网

---数据集大小：总计1800000张图片，其中450000是提供离散以及连续的标签，是目前自然条件下最大的表情识别图片数据集，也是提供二维连续模型标签中最大的图片数据集

图6｜AffectNet中部分样本对应二维情绪模型分布图[11]

4.The OMG-Emotion Behavior Dataset [12]

链接：https://www2.informatik.uni-hamburg.de/wtm/OMG-EmotionChallenge/

---数据采集方式：YouTube上采集的视频

---数据集大小：视频总数567个，按照对话分割并标注的视频片段有7371个

图7｜OMG-Emotion中样本标签分布[12]

5.Aff-Wild Database [7]

链接：https://ibug.doc.ic.ac.uk/resources/first-affect-wild-challenge

---数据采集方式：YouTube上采集的视频

---数据集大小：共298个视频，总时长超过30h

图8｜Aff-WildA中某个样本示例[7]

3 实现方法

前文提到，基于连续模型的人脸表情识别目前研究的人员比较少，一些相关文章都是针对一些比赛或会议投稿的，这些方法的有效性以及泛化能力仍待商榷。具体实现方法可参考前面专栏中基于图片/视频的人脸表情识别方法，其中的一些方法只需要将输出从分类概率转换为连续值，更换回归任务的损失函数即可同样适用到基于连续模型的人脸表情识别之中。更多针对回归任务的深度学习方法以及优化策略，也可以参考前面提到的VEA以及基于自然语言的情感分析，此文不再详细讲述。

4 参考文献

[1] Du S, Tao Y, Martinez A M. Compound facial expressions of emotion[J]. Proceedings of the National Academy of Sciences, 2014, 111(15): E1454-E1462.

[2] Li S, Deng W, Du J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2852-2861.

[3] Wang W, Sun Q, Chen T, et al. A fine-grained facial expression database for end-to-end multi-pose facial expression recognition[J]. arXiv preprint arXiv:1907.10838, 2019.

[4] Liang L, Lang C, Li Y, et al. Fine-grained facial expression recognition in the wild[J]. IEEE Transactions on Information Forensics and Security, 2020, 16: 482-494.

[5] 无心的水池 circumplex model of affect[J]. Journal of personality and social psychology, 1980, 39(6): 1161.

[6] Schlosberg H. Three dimensions of emotion[J]. Psychological review, 1954, 61(2): 81-88.

[7] Kollias D, Tzirakis P, Nicolaou M A, et al. Deep affect prediction in-the-wild: Aff-wild database and challenge, deep architectures, and 忧心的黑米[J]. International Journal of Computer Vision, 2019, 127(6): 907-929.

[8] Ringeval F, Sonderegger A, Sauer J, et al. Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions[C]//2013 10th IEEE international conference and workshops on automatic face and gesture recognition (FG). IEEE, 2013: 1-8.

[9] Kossaifi J, Tzimiropoulos G, Todorovic S, et al. AFEW-VA database for valence and arousal estimation in-the-wild[J]. Image and Vision Computing, 2017, 65: 23-36.

[10] Dhall A, Goecke R, Lucey S, et al. Collecting large, richly annotated facial-expression databases from movies[J]. IEEE Annals of the History of Computing, 2012, 19(03): 34-41.

[11] Mollahosseini A, Hasani B, Mahoor M H. Affectnet: A database for facial expression, valence, and arousal computing in the wild[J]. IEEE Transactions on Affective Computing, 2017, 10(1): 18-31.

[12] Barros P, Churamani N, Lakomkin E, et al. The OMG-emotion behavior dataset[C]//2018 International Joint Conference on Neural Networks (IJCNN). IEEE, 2018: 1-7.

总结

本文首先介绍了基于连续模型的人脸表情识别的相关概念，然后了解了目前基于连续模型的人脸表情识别领域最常用的几个数据集以及实现方法。后面的1篇专栏文章将会分享计算机视觉领域中围绕情绪识别主题的一些会议和相关竞赛。

如何长期学习人脸相关的内容？

人脸图像小组需要掌握与人脸相关的内容，学习的东西包括8大方向：人脸检测，人脸关键点检测，人脸识别，人脸属性分析，人脸美颜，人脸编辑与风格化，三维人脸重建。。了解详细请阅读以下文章：

「CV秋季划」人脸算法那么多，如何循序渐进地学习好？

人脸表情识别软件(人脸表情识别算法)

1 基本概念

2 常用数据集

3 实现方法

4 参考文献

总结