金字塔每层比例,九层金字塔的基本需求

动机：

在典型的CNN结构中，所有连接通常连接在卷积层之后。另一方面，由于所有连接层的特征数是固定的，所以在网络输入时，输入的大小(固定尺寸)是固定的。但是现实中，我们输入的图像尺寸不能总是满足输入时的要求尺寸。但是，通常的方法是裁剪(crop )和拉伸(warp )。

这总是不好。 “图像纵横比”(ratio aspect )和输入图像的大小将更改。这样会使原始图像失真。 Kaiming He在这里提出了备用轮询(SPP )层可以很好地解决这种问题，但是SPP通常连接到最后一层的基于卷。

不管SPP的明显特征输入大小如何，SPP都可以生成一定大小的输出，并且使用多个窗口的SPP可以使用相同图像的不同大小作为输入，这得到相同长度的池化特征其他：

对于输入图像的不同长宽比和不同尺寸，SPP也可以进行同样的处理，因此通过提高图像尺度的不变性、减少拟合的实验，训练图像尺寸的多样性比单一尺寸的训练图像更能收敛(connection ) 只是替换了原来的轮询层。 )不仅可以用于图像分类，还可以用于目标发现the spatial pyramid轮询层

为什么需要一定大小的输出？

如上所述，使用多个窗口(轮询窗口，上图中的蓝色、青绿色和银灰窗口，轮询特征贴图，然后合并各自的结果，得到固定长度的输出)，这就是我们刚才提到的

用下面的例子来理解这张图吧

Single-size network

首先，假定固定输入图像的尺寸s=224

w=a/n=13/3=5t=a/n=13/3=4n=2，n=1 muti-size training (证明这种可能性) ) ) ) ) ) ) ) ) )。

有这个公理及其推论：

公理：任何数都可以写几个数的平方和。

推理：任意数的平方(一个数) ) ) ) ) )。

由于我们的输入图像大小多样，因此在最终级别获得的每个featrue-map的大小为ab SPP网络的核心思想：

通过对特征映射进行相应尺度的轮询，可以轮询44、22、11的特征映射，并将这些特征映射concat作为列向量连接到下一层的所有链路层这消除了输入比例不匹配的影响。

使用SPP进行检测，首先使用提取候补的proposals法selective search来选择候补框，但不是像RCNN那样针对每个候补区域在深度网络中提取特征，而是将整个图提取一次特征后将候补框映射到conv5 由于候选框的大小尺度不同，映射到conv5后也不同，需要在SPP层提取