Microsoft paint(微软自带画图软件)

编辑：微软最近发布了Windows Vision Skills预览版，目前包括物体检测、人体骨骼检测、情感识别等API。使用Windows Vision Skills，无需复杂的计算机视觉知识，即可调用API轻松解决计算机视觉问题。

计算机视觉技术具有广泛的应用场景和市场需求。微软最近发布了Windows Vision Skills预览版。其目的是简化计算机视觉技术在Windows上的部署，使开发人员可以通过简单地调用一系列API来解决计算机视觉问题。目前，Windows Vision Skills包含一系列API，可用于实现特定类型计算机的视觉技能，包括物体检测、人体骨骼检测和情感识别。

图1从左到右表示物体检测、人体骨骼检测、情感识别的结果

对开发者来说，Windows Vision Skills框架大大降低了计算机视觉技术的应用门槛。 APP开发者使用WinRT APIs，无需了解技术内部的复杂算法和设计，即可轻松地将已经构建的视觉技术，如物体检测、人体骨骼检测等集成并开发到windows APP应用. NET、Win32、UWP中此外，计算机视觉开发人员可以使用Windows设备上的硬件加速框架，将该方案打包到可视技术包中，而无需考虑底层设计。

在发布的这三个计算机视觉API中，人体骨骼检测技术来自微软亚洲研究院智能多媒体组。由于实际应用对模型的处理速度和资源消耗要求极高，因此用于研究目的的人体骨骼检测模型难以满足实际需求。为此，微软亚洲研究院智能多媒体组的研究人员设计了高效的轻型骨骼检测模型，参数量仅为4M。

将该轻量级骨架检测模型与业界广泛使用的开源模型OpenPose以前的模型进行了比较。由于OpenPose的神经网络比较复杂，不适合直接应用于产品，因此对OpenPose模型进行了简化处理。这意味着将6个stages减少到1个stage，从而降低模型的复杂性。与简化的OpenPose模型相比，我们提出的轻型骨架检测模型在计算量(FLOPS )上减少了约80 ) )，例如86G FLOPS vs. 18G FLOPS )，CPU处理速度提高了4倍。

微软亚洲研究院首席研究员cbdnht博士说：“微软亚洲研究院长期致力于基础研究，成果落到产品上。物体跟踪、行人重新识别等我们的一系列视觉技术，将在Windows Vision Skills框架和微软的认知服务平台上相继发表。 ”

人体骨骼检测是计算机视觉中的基础任务对人类在图像和视频中的理解和分析起着重要的作用骨架检测模型可以检测图像和视频中的人的关键点(例如肩膀、手腕、膝盖等)并定位，如图2所示。由于人体骨骼包含人类的生命体征、姿势、运动等多种信息，骨骼检查模式在娱乐、教育、医疗等领域有很大的应用价值。

图2 )人体骨骼检查

人体骨骼检测包括以下应用场景。

虚拟现实：在社会和娱乐中，为了帮助信息传播，有时会想基于人类骨骼添加特殊效果。

行为识别：人体骨骼包含身体的姿势和动作信息，为人的行为类型的识别提供了重要的信息。根据心理学家Gunnar Johansson进行的生物观察工作，通过观察人体有限的关节点的活动可以识别人的行为。近年来，许多工作都在研究如何设计基于骨骼的行为识别模型。

人机交互：在机器智能中，感知并理解人类语言乃至身体语言，及时应对是中心问题之一。明确的骨骼信息便于理解身体语言、指令。

运动分析：在医疗康复和体育运动中，对人的运动进行智能分析可以大大减少人力投入，提高康复和训练的效率。例如，在骨关节病的评价和康复过程中，可以通过骨骼检查分析患者的步行模式，评价关节的灵活性和病症的严重程度。

可以在以下网站上查看Microsoftwindowsvisionskills的人体骨骼检测、物体检测和情感识别API的使用示例。

359 github.com /微软/windowsvisionskillspreview /树/主/样本

>更多信息请参考Windows Vision Skills使用教程以及NuGet.org 包：

使用教程：https://github.com/Microsoft/WindowsVisionSkillsPreview

https://docs.microsoft.com/en-us/windows/ai/windows-vision-skills/tutorial

NuGet包：https://www.nuget.org/profiles/VisionSkills

作为高层次的人体语义信息，人体骨架也常作为有效的辅助信息被应用于其他研究任务中。例如，在行人重识别（Person Re-identification）的任务中，人体骨架信息常被用于辅助进行身体部位的检测，以解决不同图片间存在的空间语义不对齐（misalignment）问题。近期，我们会在另一篇文章中详细讲解在CVPR 2019上发表的一篇关于行人重识别的学术论文。在该论文中，为了解决行人重识别中存在的空间不对齐的实际挑战，我们借助于更细粒度的稠密语义（Dense Pose）来帮助网络学习鲁棒的特征。

论文：Densely Semantically Aligned Person Re-identification, CVPR, 2019

Zhizheng Zhang, Cuiling Lan, Wenjun Zeng, Zhibo Chen

作者简介

香蕉雪糕，微软亚洲研究院智能多媒体组主管研究员，从事计算机视觉、信号处理方面的研究。研究兴趣包括行为识别、姿态估计、行人重识别、视频分析等，并在多个顶级会议、期刊上发表了30篇论文。