首页 > 编程知识 正文

开源三维引擎,3dcoat自动拓扑步骤

时间:2023-05-05 19:54:52 阅读:113986 作者:2366

源机器的心

丨杜伟,编辑勤劳的向日葵

继2020年初Facebook开源的基于PyTorch的3D计算机视觉库PyTorch3D之后,谷歌最近也推出了基于TF框架的高级模块化和高效处理库TensorFlow 3D 目前,该库是开源的。

3D计算机视觉是一个非常重要的研究课题选择合适的计算框架对处理效果有很大的影响到目前为止,机器的核心已经介绍了基于Facebook开源PyTorch框架的3D计算机视觉处理库PyTorch3D,该库在3D建模、渲染等多方面的处理操作中表现得更好

最近,另一个常见的深度学习框架TensorFlow也拥有自己的高级模块化和高效处理库。 在Googleai发布的TensorFlow3D(TF3d )中,我们将3d深度学习能力引入了tensorflow框架。 TF 3D库基于TensorFlow 2和Keras构建,便于构建、培训和部署3D语义分段、3D实例分段和3D目标检测模型。 目前,TF 3D库是开源的。

GitHub项目地址: https://github.com/Google-research/Google-research/tree/master/tf3d

TF 3D提供常见的运算、损耗函数、数据处理工具、模型和指标,使更广泛的研究社区能够轻松开发、训练和部署SOTA 3D场景理解模型。 TF 3D还包括用于SOTA 3D语义划分、3D目标检测和3D实例划分的培训和评估pipeline,以支持分布式培训。 该库还支持三维物体形状预测、点云配准、点云加密等潜在应用。

此外,TF 3D还提供了用于训练和评估标准3D场景理解数据集的统一数据集规划和配置,目前支持Waymo Open、ScanNet和Rio三个数据集。 但是,用户可以将其他常见数据集(如NuScenes和Kitti )自由转换为类似的格式,并在现有或自定义创建的pipeline中使用。 最后,用户可以将TF 3D用于各种3D深度学习的研究和应用。 例如,尝试快速原型设计和引入实时推理系统的新思路。

下图(左)是Waymo Open数据集框架中TF 3D库中3D目标检测模型的输出示例。 下图(右)是ScanNet数据集场景中TF 3D库中3D实例分割模型的输出示例。

3D 稀疏卷积网络

谷歌详细介绍了TF 3D库中提供的高效、可配置的稀疏卷积骨干网络。 该网络是在各种3D场景理解任务中获得SOTA结果的关键。

在TF 3D库中,谷歌使用子流形的稀疏卷积和池化操作。 这两者旨在更有效地处理3D稀疏数据。 稀疏卷积模型是大多数室外自动运行(如Waymo和NuScenes )和室内标准(如ScanNet )中使用的SOTA方法的核心。

谷歌还使用了各种CUDA技术来加快散列算法、共享内存中的分区/缓存过滤器和位操作等的计算。 在Waymo Open数据集上的实验表明,这种实现的速度约是利用现有TensorFlow操作实现的20倍。

TF 3D库使用3D子流形稀疏U-Net架构提取每个体素的特征。 事实证明,通过在网络中提取稀疏和细微的特征,并将它们结合起来进行预测,U-Net架构是非常有效的。 从结构上讲,U-Net网络包含三个模块:编码器、瓶颈层和解码器,它们由许多可能池化或非池化的稀疏卷积块组成。

下图是3D稀疏体素U-Net体系结构。

稀疏卷积网络是在TF 3D中提供的3D场景理解pipeline的主干。 另外,3D语义分割、3D实例分割和3D目标检测模型使用稀疏卷积网络来提取稀疏体素特征,并随后添加一个或多个附加预测头(head )以推论感兴趣的任务用户可以通过改变编码器或解码器的层数和每层的卷积数并调整卷积滤波器的大小来配置U-Net网络,来搜索不同主干网络配置中的各种速度或准确性的折衷。

TF 3D 支持的三个 pipeline

目前,TF 3D支持三种pipeline:3D语义分割、3D实例分割和3d目标检测。

3D 语义分割

3D语义分割模型只有一个输出头用于预测每个体素的语义得分,这些语义被映射到点以预测每个点的语义标记。

下图为ScanNe

t 数据集中室内场景的 3D 语义分割结果:

3D 实例分割

除了预测语义之外,3D 实例分割的另一目的是将属于同一物体的体素集中分组在一起。TF 3D 中使用的 3D 实例分割算法基于谷歌之前基于深度度量学习的 2D 图像分割。模型预测每体素的实例嵌入向量和每体素的语义分数。实例嵌入向量将这些体素嵌入至一个嵌入空间,在此空间中,属于同一物体实例的体素紧密靠拢,而属于不同物体的体素彼此远离。在这种情况下,输入的是点云而不是图像,并且使用了 3D 稀疏网络而不是 2D 图像网络。在推理时,贪婪算法每次选择一个实例种子,并利用体素嵌入之间的距离将它们分组为片段。

3D 目标检测

3D 目标检测模型预测每体素大小、中心、旋转矩阵和目标语义分数。在推理时使用 box proposal 机制,将成千上万个每体素 box 预测缩减为数个准确的 box 建议;在训练时将 box 预测和分类损失应用于每体素预测。

谷歌在预测和真值 box 角(box corner)之间的距离上应用到了 Huber 损失。由于 Huer 函数根据 box 大小、中心和旋转矩阵来估计 box 角并且它是可微的,因此该函数将自动传回这些预测的目标特性。此外,谷歌使用了一个动态的 box 分类损失,它将与真值强烈重叠的 box 分类为正(positive),将与真值不重叠的 box 分类为负(negative)。

下图为 ScanNet 数据集上的 3D 目标检测结果:

参考链接:https://ai.googleblog.com/2021/02/3d-scene-understanding-with-tensorflow.html

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的tzdhb聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。