首页 > 编程知识 正文

nets中文,point2f

时间:2023-05-06 16:03:31 阅读:8978 作者:3868

《Frustum PointNets for 3D Object Detection from RGB-D Data》论文笔记1、论文构想2、模型介绍2.1模型结构2.2细节实现2.2.1 frustum proposal2.2. 23 dinstancesegmentation2.2. 3a modal3dbox estimation 2

代码

论文

一、论文思路

本文首先利用2D模型由图像生成2D的边界盒,再用frustum (平面截面体)方法映射到3D的候选区域。 在模型的第二阶段,本文使用PointNet和PointNet等基于3D点云的模型,对前一阶段的frustum找到的候补区域进行实例分割,进行最终的3D bounding box的回归。

二、模型介绍2.1模型结构

从图的第一部分可以看出,该模型首先通过2D的CNN得到物体2D的边界盒及其类别,然后将2D的边界盒映射到一个3D的frustum proposal中。 图的第二部分是实例划分网络,可以将前面的frustum proposal点采样为N C Ntimes C NC。 其中,N N N是点数,C C C是包括XYZ和强度信息在内的各个点的特征维。 最终,这些点输出用于n个点的mask掩码作为与proposal在2D CNN上获得的类别的one hot vector一起划分网络的输入,并且被掩码过滤的mm个点是在最后一个阶段,基于PointNet的TNet网络校正输入点并对齐,通过另一个网络回归来预测3D边界盒。 2.2细节实现2.2.1 Frustum Proposal通过一个投影矩阵,每个2D的边界盒可以映射到一个3D的frustum proposal。 由于每个frustum proposal的方向不同,因此按照下图的步骤(a )至(b ),先向与相机正交的方向旋转,提高后续算法的旋转不变性。

在2D检测模型中,本文选择FPN架构,在ImageNet上训练,在KITTI上精细tune。

2.2.2 3d实例分段从下图中可以看到,仅从Frustum Proposal中,得到的点云包含很多背景点,因此该模块的主要功能是将我们需要的前景从背景中分割出来。 另外,如前图(c )所示,对于分割后的前观光地云,以其为中心导入平移不变性。

2.2.3 a模型3d box estimation

本部分主要有两个部分。

3358 www.Sina.com/:与point net上的T-Net相似,只是这里学习的不是旋转矩阵,而是物体中心点的残差,这里有监视。 3358www.Sina.com/:输出最终bounding box的各种参数。 输出的维度为34ns2nh34ns2ns2NH,其中3358www.Sina.com/表示相对于中心点的残差回归;T-Net表示不同size的anchor的个数。 每个anchor有4个维度,分别是anchor可靠、方面高的残差回归;Box Estimation Net

代表不同朝向的anchor,每个anchor有两个参数,分别是置信度和朝向角θ。 2.2.4 模型结构

模型的具体结构如下:

2.2.5 损失函数

由于这是一个多任务优化算法,因此在损失函数中应包含用于图像分割的Pointnet的损失 L s e g L_{seg} Lseg​用于坐标平移的T-Net的损失、和用于框出目标的损失三部分组成。具体的公式如下:

L c 1 − r e g L_{c1-reg} Lc1−reg​ 和 L c 2 − r e g L_{c2-reg} Lc2−reg​ 分别对应T-Net的坐标平移损失和box estimation的中心回归损失(也就是判断中心产生的损失)。 L h − c l s L_{h-cls} Lh−cls​和 L h − r e g L_{h-reg} Lh−reg​分别对应朝向的类别损失和回归损失(即离散值anchor的类型分类,和连续值的回归——smooth l1 loss)。 L s − c l s L_{s-cls} Ls−cls​和 L s − r e g L_{s-reg} Ls−reg​分别代表box尺寸的类别损失和回归损失,与朝向类似。

上面的损失公式将box的尺寸和角度等参数视为独立的变量计算损失,但实际情况是box的尺寸和角度共同决定了box的信息,而最终得到的box的信息才是我们想要的。因此,frumstum pointnet引入了box的角损失(即对8个bounding box的corner进行损失计算),也就是上面的损失公式中的 L c o r n e r L_{corner} Lcorner​,具体的计算公式为:

这里在NSxNH个anchor中仅有正确的size和head朝向的那个box会计算损失(即其他时候δ=0)。对于第i个size的第j个朝向的box的第k个角 P k i j P^{ij}_k Pkij​,会移动到ground truth box的中心,与每个对应的角算L1 Loss。为了考虑到翻转180度的问题,这里会算与180度旋转之后的角 P ∗ ∗ P^{**} P∗∗的损失,并取最小值。(后面最后一项中是对k求和而不是i,论文应该写错了)

三、实验结果

论文在detection的任务里比较了KITTI数据集(包含3D detection和鸟瞰图的detection)和SUN-RGBD数据集。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。