首页 > 编程知识 正文

宋希贤 大数据(2021mathorcup优秀论文)

时间:2023-05-05 12:02:03 阅读:82519 作者:124

2016年,Facebook正式推出Oculus Rift耳机设备,极大地革新了人们对VR技术的认识。 这一年也被称为VR元年。 五年过去了,现在VR技术发展到了什么程度? 从原生VR游戏《半条命:爱莉克斯》来看,在这样的游戏场景中,人们与虚拟世界的互动非常成熟。

《半条命:爱莉克斯》

但是,巨大的头戴式显示器是阻碍VR APP应用普及的重要原因。 例如,在《半条命:爱莉克斯》中,这个游戏的本质是手的交互,但是要实现捡东西、扔东西、扣扳机等复杂的虚拟交互,就需要VR头盔和VR手柄。

最近, 计算机视觉领域的国际顶级会议ICCV 2021上刊登了“i2uv-hand net : image-to-uvpredictionnetworkforaccurateandhigh-fidelity 3握手协议由深度学习云算法的团队和慕尼黑工业大学的学者完成,他们在论文中提出了I2UV-HandNet这种高精度的手重构系统,通过“观看”单眼RGB的人手照片,可以实现高精度的三维重构。

论文地址: https://arxiv.org/abs/2102.03725

另外,如果使该技术“适合”带摄像头的眼镜和头盔,用户就可以不用方向盘,实现与虚拟世界的高质量对话。

重建效果怎么样? 这篇论文在已经公认的HO3D在线评价排行榜上,击败群雄,连续几个月排名第一。 在Freihand在线评价排行榜中,到论文撰写时为止一直排在第一位。

HO3D排行榜的结果,红框的地方是爱琴

论文写作时Freihand排行榜的结果显示,红框的地方是ichi

目前,研究人员正在将该技术应用于新一代VR设备的眼锯,以减少对手柄的依赖,制造更轻、更快、更舒适的VR设备。 同时,手势重建、交互技术目前也在艾奇的其他业务场景和硬件终端进行落地搜索,相信近期将陆续与用户见面。

01 I2UV-HandNet:业界首创的手部三维重建技术

在人机交互和虚拟现实的应用中,高精度的人工三维重建技术发挥着重要的作用。 但是,由于手势的变化和严重遮挡,目前的重建方法在准确性和精度方面还处于火候不佳。

另一方面,目前学术界正在对手进行三维重建评价。 例如,用Freihand数据集进行评价主要强调算法精度的优越性,不需要考虑计算力和延迟等,因此可以采用计算复杂度非常高(例如转换器等)的算法。

另一方面,工业界,特别是VR等移动设备,在计算力、功耗、电池续航和发热等各方面都有严格限制,应用中必须采用计算复杂度低的算法。

另一方面,VR等设备的照相机,由于移动侧硬件的功耗、续航距离的限制,不采用高分辨率的照相机,必须降低分辨率,拍摄的图像的分辨率相对较低,对算法的识别提出了挑战。

由i2uv-hand网络框架图、仿射网络和Sr网络构成

将该论文提出的I2UV-HandNet进行眼线笔,独创地将UV映射的特征引入到三维手势和形状推断中。 其设计的UV重构模块AffineNet能够根据单目图像预测手持网络(hand mesh ),完成人手对3D模型的重构。

该设计意味着无需使用昂贵的硬件检测三维重构所需的空间景深信息,即可从普通RGB相机拍摄的照片中获取景深信息。

I2UV-HandNet的另一个组成部分是SRNet网络,其作用是更高精度地重构现有的载人三维模型。 SRNet网络以研究小组独有的“将点的超点转换为图像的超点的思想”为原则,在不过度增加计算量的情况下实现了上万点云的超点重构。

另外,由于缺乏用于训练SRNet的高保真手数据,研究小组建立了一个名为SuperHandScan的扫描数据集来训练SRNet。 因为SRNet的输入是基于UV的,所以

的“粗糙”手部网格。因此SRNet的应用范围很广,换句话说,一个“训练有素”的SRNet可以对任何粗手部网格进行超分辨率重建。

据介绍,SRNet和AffineNet组成的I2UV-HandNet系统,未做任何优化情况下,能够在nvidia v100达到46fps;而经过工程优化后版本能够在骁龙865CPU+DSP下达到实时。

在FreiHAND上进行真实场景下多姿态的人手3D重建对比,↓表示越低越好,↑表示越高越好。

为了验证I2UV-HandNet方法对姿态的鲁棒性,研究团队选用了包含大量姿态的真实人手数据集FreiHAND作为测试集,并通过FreiHAND Competition在线测评与相关SOTA工作进行对比,结果如上表所示,证明了该UV重建方法的有效性。

在HO3D上进行真实场景下具有遮挡的人手3D重建实验对比,↓表示越低越好,↑表示越高越好。

同时为了验证在各种遮挡场景下的重建性能,研究团队选取包含大量遮挡样本的HO3D数据集进行测评,结果如上表所示,各项指标也都达到了SOTA。

↓表示越低越好,↑表示越高越好

为了定量评价SRNet,研究团队还在HIC数据集上进行了实验。如上所示,SRNet的输出(表中的“OUTPUT”)得到了优于原始深度图的结果。

02 模型介绍:AffineNet+SRNet=I2UV-HandNet

AffineNet网络框架图,AffineNet由编码网络和解码网络组成,在解码时通过Affine Conection和多stage完成由粗到精的UV学习

如上图所示,AffineNet由编解码网络组成,编码骨干网络ResNet-50,解码时采用由粗到精的层级结构,其中Affine Connection是指通过当前层级预测的UV用仿射变换(类似STN)的方式实现编码特征向UV图的对齐,即:

同时有:

以及:

其中表示分辨率下的编码特征图,(x)表示将x放大2倍,表示根据稠密的在固定投影矩阵的投影坐标,表示Affine Connection操作,表示通过仿射变换后与UV对齐后的特征图,相对于,其包含更多与手相关的特征。表示分辨率下的解码特征图,表示表示卷积操作。通过上面两个公式看出,解码过程本质上就是一套低分辨率UVmap到高分辨率UVmap重建的过程,同时也是3D点云重建由粗到精的过程。

AffineNet的损失函数分为3项:

其中,使用L1作为UV的重建Loss:

I_{UV}^*为真实UV图,为重建结果,M为UV的3D手有效映射掩码。

UV图本质上可以看成将3D模型上每个三角面不重叠地映射到二维平面,所以在UV图上对应的三角片区域的值应该是连续的,因此引入Grad loss:

其中和分别表示在UV图的U轴和V轴方向求梯度。

在训练阶段对分辨率最大的4个stage(即i=0,1,2,3)重建的UV进行优化,其中===1,投影矩阵选用正投影矩阵,每个stage间的loss比例都为1。

SRNet每层的设置

SRNet的网络结构类似于超分辨率卷积神经网络(SRCNN),但输入和输出是UV图而非RGB图像。

研究团队巧妙地通过UV图的方式将点的超分转换为图像的超分,将伪高精度UV图作为输入,高精度UV图作为标签,通过伪高精度3D模型生成的UV图到高精度3D模型生成的UV图的超分学习,完成1538个面到6152个面,778个点到3093个点的超分学习,超分Loss设计如下:

在测试阶段只需要将AffineNet重建的UV图作为输入,便可得到经过超分重建后的高精度UV图,从而实现人手的高精度3D重建。

将AffineNet和SRNet结合成I2UV-HandNet系统便可完成High-fidelity的人手3D重建。为了快速验证将点的超分转化为图像的超分的可行性,研究团队将SRCNN网络结构用于SRNet中,并选取SHS数据集进行训练。

Batch size设置为512,输入UV图的大小为256*256,初始学习率为1e-3,优化器Adam,并采用cosine lr下降方式,并在scale、旋转等方面进行数据增广。

同时为了网络模型具有更好的泛化性,也随机对高精度UV图进行高斯平缓处理,并将结果作为网络的输入。在测试时,将AffineNet输出的UV图作为SRNet的输入实现I2UV-HandNet系统的high-fidelity3D人手重建。

在HO-3D数据集(左)和FreiHAND数据集(右)上的重建结果。从左到右依次为:输入、AffineNet的重建结果、SRNet输出的超分结果(high-fidelity)

上图显示I2UV-HandNet在各种姿态和遮挡条件下基于单目RGB图的人手的High-fidelity的3D重建结果。通过上图的Coarse Mesh和High-fidelity meshes对比可以看出,通过UV图超分输出的包含3093个点/6152个面的3D模型(High-fidelity)明显要比AffineNet输出的包含778个点/1538个面的MANO模型(Coarse Mesh)更加精细,具体表现在折痕细节和皮肤鼓胀等。

在论文中,研究团队还在FreiHAND测试集上进行了Loss分析、Affine Connection存在性、UV展开方式以及由粗到精的方式多项属性消融的实验分析,分析结果依次见表4到表7。

不同的UV展开形式

通过实验分析进一步证明本算法在各方面都具有较好的鲁棒性,尤其是对背景具有强抗干扰性,非常适合应用于实际产品中。

03 下一步:“适配”更加丰富的应用场景

手部重建比较与人体重建相似,当前学术界做人体重建的算法可以迁移到手部的应用。但相对于比较火热的人脸重建,手部和人体存在自遮挡更多,姿态复杂度更高等问题,因此研究难度大,业界可借鉴资料、行业内的应用都相对较少。

但手部、人体重建却是用自然的肢体语言实现人机交互的关键技术,相比一些可穿戴设备,更能带来体验和沉浸度。例如手柄无法模拟手指每一个关节的活动,手部重建则能实现更加精细的操控。这意味着游戏、数字化工厂、虚拟场景培训等更多场景。

接下来,爱奇艺技术团队将会致力于算法的计算效率提升,能够更好的满足VR设备应用场景对功耗及计算资源的严苛要求;同时也会继续研究当前学术界的一些难题,例如对于重叠/遮挡的手的重建,爱奇艺深度学习云算法小组也已经开始布局。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。