首页 > 编程知识 正文

打开全局搜索(全局比例)

时间:2023-05-06 15:15:18 阅读:101831 作者:1328

选自arXiv

作者:海民罗等

机器心脏编译

编辑:nxdmy

自NeRF提出以来,许多研究对其进行了改进。在这篇论文中,上海科技大学的研究人员首次提出了将显式不透明度监测和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

复杂物体的高真实感建模和渲染对于许多沉浸式VR/AR应用非常重要,其中物体的亮度与颜色和视图密切相关。本文中,来自上海科技大学的研究人员提出了一种利用卷积神经渲染器为模糊目标生成不透明辐射场的新方案,这是第一个将显式不透明度监督和卷积机制结合到神经辐射场框架中以实现高质量外观,并从任何新角度生成全局一致的alpha蒙版的方案。

具体来说,本研究提出了一种有效的采样策略,即相机光线和像平面,从而能够有效地对辐射场进行采样,并进行逐片学习。同时,本研究还提出了一种新的体特征集成方案,该方案生成每个面片的混合特征嵌入,以重构具有一致视图的精细外观和不透明输出。

此外,本研究进一步采用补丁式对抗训练方案,在自我监控框架中保持高频外观和不透明细节。本研究还提出了一种高效的多视角图像捕获系统,用于捕获具有挑战性的模糊目标的高质量彩色和阿尔法图像。在现有数据集和具有挑战性模糊目标的新数据集上的大量实验表明,本文提出的新方法能够实现各种模糊目标的高真实感、全局一致性和精细的不透明自由视图绘制。

地址:https://arxiv.org/abs/2104.01772

这项研究的主要贡献包括:

提出了一种新的卷积神经辐射场生成方案,用于在高频和新视点下重建模糊目标的全局一致外观和不透明度,明显超过了以往的SOTA性能。

为了实现卷积机制,本研究提出了高效的采样策略、混合特征融合和自监督对抗训练方案用于分片辐射场学习。

提出了一种高效的多视角系统来捕获彩色和阿尔法图像,以处理具有挑战性的模糊目标。本研究捕获的数据集可用于刺激进一步的研究。

方法框架

在这篇论文中,研究人员详细介绍了新的可卷积神经不透明度辐射场(convnerf)。基于捕捉系统的RGBA输入,该模型可以在新视图中实现高真实感、全局一致的外观和不透明渲染,如下图所示:

端到端ConvNeRF管道概述。

给定多视图RGBA图像,研究人员使用SFS(从轮廓形状)来推断代理几何形状,以实现有效的光线采样。对于体积空间中的每个样本点,位置和方向将被馈送到基于MLP的特征预测网络中,以在全局级别上表示对象。然后,研究人员将附近的光线合并成局部特征面片,并使用卷积体积渲染器将其解码成RGB和mask。他们在最终输出中使用对抗训练策略来提升精细的表面细节。在参考阶段,此方法一次渲染整个图像,而不是渲染每个面片。

该方法的主要思想是利用空间卷积机制对不透明信息进行显式编码,从而改进神经辐射场方法(NeRF)并对高频细节进行建模。受NeRF启发,研究人员利用类似的隐式神经辐射场,利用多层感知器对场景进行表征,并预测密度和颜色值沿投影光线方向的体积积分。

不同的是,ConvNeRF通过空间卷积设计进一步明确编码不透明度,显著改善神经辐射场的重建。因此,研究人员首先提出了一种高效的采样策略,该策略不仅利用了光线沿摄像机的先验内在轮廓,还对整个像平面的空间信息进行了编码。然后,使用全局几何表示方法将三维位置映射到高级辐射特征,并使用新的体融合方案生成逐片混合特征嵌入,从而将外观和不透明度特征分别建模,从而通过逐片方法进行更高效的辐射场学习。

最后,研究者使用轻量级U-Net将特征面片解码为外观和不透明度一致的输出,并进一步采用逐面片对抗训练方案,将高频外观和不透明度的细节保留在自监控框架中。

捕获系统

本研究中使用的捕捉系统可以生成高质量的多视角RGBA图像,用于具有挑战性的模糊目标的显式不透明度建模。

如下图捕捉系统概述图所示,该方法的流水线配备了易用的捕捉设备和稳定的验证和自动抠图方法。

/pgc-image/522f2cde114d416084252f2128ef5604?from=pc">

实验结果

该研究在多种毛茸茸物体上评估了 ConvNeRF。定量和定性评估实验的结果表明:与之前的工作相比,该方法可以更好地保留高保真外观细节,并在任意新视图中生成全局一致的 alpha 蒙版。该研究进一步进行了消融实验,以验证该方法的设计选择。

如下图 6 所示,在 Cat、Girl、Wolf 数据集上,研究者对该方法与 IBOH、NOPC、和 NeRF 的自由视点 RGB 进行了对比。结果发现,该方法能够在保留几何全局视图一致性的同时重建几何和外观上的精细细节,例如猫的毛皮纹理、女孩靴子上的图案以及狼毛的几何细节。IBOH 表现出重影和混叠,NOPC 存在过度模糊和几何细节的损失,而 NeRF 则表现出过多的噪声和模糊。

下图 7 展示了在 Cat、Hairstyle 2 数据集上,该方法与 IBOH、NOPC 和 NeRF 的自由视点 Alpha 效果比较。结果发现,该方法可以从视线不一致的 alpha 蒙版中恢复缺失的部分不透明度,例如猫的胡须,如第一行所示,而 IBOH 则会失败,并出现严重的伪影。该方法可以产生比 NOPC 更锐利(sharp)的 alpha 蒙版,后者会在头发周围产生严重的伪影。而 NeRF 在富有挑战性的 Hairstyle 2 数据集上失败了。

在定量评估方面,研究者使用 PSNR、LPIPS 和 SSIM 作为指标定量评估了几种方法。如下表 1 和表 2 所示,ConvNeRF 在 RGB 和 alpha 结果上都实现了显著的性能提升。

下表 3 展示了在半透明(即 0 < α < 1)区域上,所有数据集的平均 PSNR,该方法实现了 SOTA 性能。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。