rpn通俗理解,网络年终总结

更多内容更新为个人博客twn29004.top

典型的RPN网络Faster-RCNN的RPN网络

在Backbone生成的特征图中，使用大小为33 (时间33 )的卷积处理特征图，在每个中心点产生256维向量。特征图可以理解为原图的一种缩小版。 33 (时间33 )卷积处理特征图可对应于原始图中的一个区域。而且RPN网络的目的是在原图像中的各个区域放置anchors。然后根据提取的特征判断这些anchor是否合理，然后调整这些anchor。

对于特征量图中的每个中心点，使用33 (时间33 )的卷积来提取特征量图的特征，并且产生向量256-D。可以理解为该256-D的向量对应于原始图像的某个区域。然后，使用几个完全连接层来确定这些anchor是背景还是前景，以及这些anchor相对于目标中心点的偏移。

完成上述步骤后，为提取的特征图上的每个点获取一组anchor、上一个景点或背景点以及相对于地面路线的偏移。然后，需要proposal layer网络来生成proposal。基本步骤如下。

根据从前面RPN网络计算的偏移和原始anchors，根据对生成最终anchors的位置之前的anchor是前面的观光地还是背景点的判断的输出，根据可靠度进行排序，将前n个作为关注点对超出图像边界的anchors进行处理，排除尺寸小的anchors，对剩下的positive anchor进行NMS的剩下的区域输出，作为下一阶段的输入，上述proposal生成了一系列尺寸不同的anchor。这些anchor都是与原图对应的不同大小的区域。由于神经网络只能处理固定大小的输入，将不同大小的anchor映射到backbone生成的特征图后，将对应区域的不同大小的特征图划分为相同大小的网格，并对这些网格进行polole 这样可以在网络中输入一定大小。

第二个网络中的RPN网络

SECOND的RPN网络类似于Faster-RCNN，但SECOND没有第二阶段。该RPN网络用于根据backbone提取的特征图生成边界框。

由于三维卷积神经网络耗时太长，作者利用稀疏卷积神经网络提取三维点云特征，然后将其压缩到平面图特征图上，根据特征图上的各个位置计算该区域所属的类和回归分支计算的值。

神经网络总是要找到优化的目标，但目前还不知道优化的目标是什么，所以需要找到优化的基准值。所以，需要根据anchor找到基准值作为优化目标。这里采用了以IoU为基准进行判断。也就是说，当我的anchor和基准值的IoU大于某个阈值时，我需要关注这个anchor预测的输出。当小于某个阈值时，我们也需要关注其预测的输出。我们将其分类为背景。那么，我们在训练的时候也希望他朝着背景的方向优化。

这就是OpenPCDet的目标助手。 anchor和gt结合后，还需要gt的其他信息来优化目标。

PointRCNN网络中的RPN网络

*通过这种方法生成的区域方案达到了高回复。 *其实理由很清楚。如果能够找到由各个前观光地生成、目标前观光地，则与之对应的三维边界框也能够以高概率进行计算。使用点云分割网络分割采样的点云。然后，根据分割后的前观光地生成边界框。在本文中，意味着对每个前面的观光地预测三维边框。这样，由于会产生大量重复的三维边框，作者使用NMS去除了边框。作者在平面图中选择IoU阈值为0.85，选择300个高质量的门户进行第二阶段的优化。在平面图中选择的原因是二维IoU的计算简单快捷，以及重复较多，作者选择了较高的阈值减少了proposal的数量。

从上图可以看出，当IoU为0.5时，其召回量可以达到98.21。这已经达到相当高的水平。但是，当IoU为0.7时，它下降到了82.29。这在一定程度上反映了实际上针对各前景点生成的三维边界框的质量不是很高。分析其原因，不同的前景区通常位于不同的目标位置，基于预测回归三维边界框可能比较困难。

一方面这些方法有缺点，另一方面三维计算需要消耗很多资源

边界框。该网络是一个二阶段的网络，但是作者并没有同时训练这两个网络，分析其原因是因为计算资源消耗太大了。一方面是分割网络的资源消耗，另一方面的proposal生成的消耗。

VoteNet网络中的RPN网络

VoteNet的基本流程就是首先在原始场景中进行采样，提取特征。然后根据提取的特征对目标的中心点进行投票。这里投票的意思就是根据原始点云的位置和特征，估算目标中心点的位置，计算该点云到中心点的偏移。原始点云加上这个偏移就可以向目标中心点靠拢。然后在根据投票结果做一个聚类。文中描述的聚类的话是在Votes中进行FPS采样，采样 K K K个点，然后将这 K K K个点周围的其他点聚合到一个集合中就形成了一个聚类。因为投票之后目标的点靠的更近了。聚类后的结果即为网络的proposal。然后根据这些proposal生成三维边界框。

VoteNet网络的RPN感觉比PointRCNN的要好一些，同样是根据点来生成proposal。VoteNet中借用了投票和聚类的方法来生成proposal。此外，再该方法中，不仅利用了前景点云，还在一定程度上利用了周围的背景点云。可能还在一定程度上减少了计算开销。

3DSSD网络中的RPN网络

3DSSD中的RPN网络部分和VoteNet中的基本一致。不同的是3DSSD中引入了一种混合采样的方法。传统的FPS采样是在无限的飞机空间进行的。作者在文中分析了这个方法的弊端。因为点云场景中大部分的点云都是背景点云。FPS采样虽然可以让采样的点云均匀的近似均匀的分布在整个点云空间，但是其采样到的点云大部分都是背景点云。这不利于我们的特征提取。因此作者引入了一种混合采样的方式，就是既在无限的飞机空间应用FPS采样，又在语义特征空间应用FPS采样。然后将两种采样的距离结合起来。

上表中，D-FPS表示的是无限的飞机空间的FPS,F-FPS表示的是语义特征空间的FPS。从上表中可以看出，引入F-FPS确实能在一定程度上提高算法采样到前景点的比例。

此外，3DSSD采用的是anchor-free的方法生成三维框，其根据每一个候选人点生成一个三维框，

一个疑问高维空间中的距离度量将会失效，那再高维的语义特征空间中，FPS为什么还会有效呢？？？,难道是这里的语义特征的维度很小，这里需要到代码中求证

点生成一个三维框，

高维空间明理的花瓣距离与余弦相似度失效