卷积神经网络池化层,最大二均值池化

在卷积神经网络中，我们经常遇到池化操作，但池化层常常位于卷积层之后，通过池化来减少卷积层输出的特征向量，同时改善结果(不易发生过拟合)。为什么可以降低维度呢？

由于图像具有“静态”属性，这意味着在一个图像区域中有用的特性很可能同样适用于另一个区域。因此，为了表示大图像，自然的想法是集中统计不同位置的特征，例如，其可以计算和替换图像的一个区域上的一个特定特征的平均值(或最大值)

把这个区域的特征制成表格。

1 .“常规池化”(General Pooling )池化用于图像中不重叠的区域(这与卷积操作不同)，过程如下图所示。

池化窗口的大小定义sizeX，即下图中红色方形边的长度，两个相邻池化窗口的水平偏移/垂直偏移定义为stride。典型的池化是sizeX=stride，因为每个池化窗口都不重复。

最常见的池操作是平均池化mean pooling和最大池化max pooling。

平均池化：计算图像区域的平均值，将该区域作为池化的值。

最大池化—选择图像区域的最大值，将该区域设置为池化值。

2 .重叠池化重叠池化如其名，如果相邻池化窗口之间存在重叠区域，则为sizeXstride。

在论文[2]中，作者在使用重叠池化且未更改其他设置的情况下，top-1和top-5的错误率分别减少了0.4%和0.3%。

3 .空金字塔池3空间金字塔池可以将任何比例的图像卷积特征转换为相同维度，这不仅允许CNN处理任何比例的图像，而且允许cropping

一般的CNN要求输入图像的大小一定。这是因为所有合并层的输入都需要固定输入维，但卷积操作对图像的比例没有限制。所有作者都建议空间金字塔池化。首先对图像进行卷积操作，然后将维转换为相同的特征并输入到所有连接层中。这可以将CNN扩展到任意大小

请参阅。

空间金字塔池化的思想来自Spatial Pyramid Model，它变成了一个pooling为多个scale的pooling。使用不同大小的池化窗口作用于卷积特征时，得到1x1、2x2、4x4的池化结果，conv5共有256个滤波器，因此1个256维特征、4个256个特征和16个256维

的特征，并将这21个256维特征链接并输入到所有连接层中，从而将不同大小的图像转换为相同的维特征。

要为不同的图像获得相同大小的轮询结果，必须根据图像的大小动态计算池窗口的大小和步长大小。将conv5输出的尺寸设为a*a，则需要得到n*n尺寸的池化结果，能够将窗口尺寸sizeX设为步长。下图以conv5输出大小为13*13时为例。

疑问：如果conv5的输出大小为14*14、[pool1*1]的sizeX=stride=14、[pool2*2]的sizeX=stride=7，则这些没有问题，但[pool4*4]

SPP实际上是多个比例轮询，可以取得图像中的多尺度信息；在CNN中添加SPP后，CNN可以处理任意大小的输入，模型更灵活。

转载于：https://www.cn blogs.com/zong fa/p/9064245.html