nets中文,point2f

《Frustum PointNets for 3D Object Detection from RGB-D Data》论文笔记1、论文构想2、模型介绍2.1模型结构2.2细节实现2.2.1 frustum proposal2.2. 23 dinstancesegmentation2.2. 3a modal3dbox estimation 2

代码

论文

一、论文思路

本文首先利用2D模型由图像生成2D的边界盒，再用frustum (平面截面体)方法映射到3D的候选区域。在模型的第二阶段，本文使用PointNet和PointNet等基于3D点云的模型，对前一阶段的frustum找到的候补区域进行实例分割，进行最终的3D bounding box的回归。

二、模型介绍2.1模型结构

从图的第一部分可以看出，该模型首先通过2D的CNN得到物体2D的边界盒及其类别，然后将2D的边界盒映射到一个3D的frustum proposal中。图的第二部分是实例划分网络，可以将前面的frustum proposal点采样为N C Ntimes C NC。其中，N N N是点数，C C C是包括XYZ和强度信息在内的各个点的特征维。最终，这些点输出用于n个点的mask掩码作为与proposal在2D CNN上获得的类别的one hot vector一起划分网络的输入，并且被掩码过滤的mm个点是在最后一个阶段，基于PointNet的TNet网络校正输入点并对齐，通过另一个网络回归来预测3D边界盒。 2.2细节实现2.2.1 Frustum Proposal通过一个投影矩阵，每个2D的边界盒可以映射到一个3D的frustum proposal。由于每个frustum proposal的方向不同，因此按照下图的步骤(a )至(b )，先向与相机正交的方向旋转，提高后续算法的旋转不变性。

在2D检测模型中，本文选择FPN架构，在ImageNet上训练，在KITTI上精细tune。

2.2.2 3d实例分段从下图中可以看到，仅从Frustum Proposal中，得到的点云包含很多背景点，因此该模块的主要功能是将我们需要的前景从背景中分割出来。另外，如前图(c )所示，对于分割后的前观光地云，以其为中心导入平移不变性。

2.2.3 a模型3d box estimation

本部分主要有两个部分。

3358 www.Sina.com/:与point net上的T-Net相似，只是这里学习的不是旋转矩阵，而是物体中心点的残差，这里有监视。 3358www.Sina.com/:输出最终bounding box的各种参数。输出的维度为34ns2nh34ns2ns2NH，其中3358www.Sina.com/表示相对于中心点的残差回归；T-Net表示不同size的anchor的个数。每个anchor有4个维度，分别是anchor可靠、方面高的残差回归；Box Estimation Net

代表不同朝向的anchor，每个anchor有两个参数，分别是置信度和朝向角θ。 2.2.4 模型结构

模型的具体结构如下：

2.2.5 损失函数

由于这是一个多任务优化算法，因此在损失函数中应包含用于图像分割的Pointnet的损失 L s e g L_{seg} Lseg用于坐标平移的T-Net的损失、和用于框出目标的损失三部分组成。具体的公式如下：

L c 1 − r e g L_{c1-reg} Lc1−reg 和 L c 2 − r e g L_{c2-reg} Lc2−reg 分别对应T-Net的坐标平移损失和box estimation的中心回归损失（也就是判断中心产生的损失）。 L h − c l s L_{h-cls} Lh−cls和 L h − r e g L_{h-reg} Lh−reg分别对应朝向的类别损失和回归损失（即离散值anchor的类型分类，和连续值的回归——smooth l1 loss）。 L s − c l s L_{s-cls} Ls−cls和 L s − r e g L_{s-reg} Ls−reg分别代表box尺寸的类别损失和回归损失，与朝向类似。

上面的损失公式将box的尺寸和角度等参数视为独立的变量计算损失，但实际情况是box的尺寸和角度共同决定了box的信息，而最终得到的box的信息才是我们想要的。因此，frumstum pointnet引入了box的角损失（即对8个bounding box的corner进行损失计算），也就是上面的损失公式中的 L c o r n e r L_{corner} Lcorner，具体的计算公式为：

这里在NSxNH个anchor中仅有正确的size和head朝向的那个box会计算损失（即其他时候δ=0）。对于第i个size的第j个朝向的box的第k个角 P k i j P^{ij}_k Pkij，会移动到ground truth box的中心，与每个对应的角算L1 Loss。为了考虑到翻转180度的问题，这里会算与180度旋转之后的角 P ∗ ∗ P^{**} P∗∗的损失，并取最小值。（后面最后一项中是对k求和而不是i，论文应该写错了）

三、实验结果

论文在detection的任务里比较了KITTI数据集（包含3D detection和鸟瞰图的detection）和SUN-RGBD数据集。