平均池化的算法,全局池化代替全连接层

链接到文章：

为什么使用全局平均池层？

关于全局平均轮询

3359 blog.csdn.net/QQ _ 23304241/article/details/80292859

在卷积神经网络的初始阶段，卷积层在通过池化层(通常为最大池化)之后总是需要一个或n个全部连接层，并且最后通过softmax进行分类。其特点是全连接层参数非常多，模型本身非常肥大。

随后，亮金毛在网络互联(nin )论文中阐述了用全球平局池化层代替全连接层的构想。以下是摘录的资料的一部分。

全局平均轮询。完全连接到网络可以减少功能图的维度，并将其输入到softmax中，但会导致拟合，所以不是可以使用轮询代替完全连接吗？

答案是肯定的。在网络上的工作中，用GAP代替了最后的所有连接层，直接实现了降维。更重要的是大幅减少网络参数(实际上，在CNN网络中占最大参数的是后面的所有连接层)。全球平均轮询的结构如下图所示，为：

由此，可以比较直观地进行说明。在这两者合并的过程中，我们发现GAP的真正含义是：对整个网络进行结构归一化，以防止过拟合。它直接消除了全连接层中黑匣子的特征，直接赋予了每个通道的实际内涵。

实践证明其效果比较大，同时GAP可以实现任意图像大小的输入。但是请注意，使用gap可能会减慢收敛速度。

但是，全局平均池化层与所有连接层相比，为什么收敛速度慢，模型的训练有什么区别呢？找不到相关文章的介绍。以下是发挥我自己的想象(很可能是错误的)来理解的几点。

1 .全联结层结构模型对训练学习过程可能有更多的压力存在于全联结层。也就是说，卷积特征学习的低级与此无关。全联结不断学习调整参数，同样可以很好地分类。

这里是完全的推测，没有道理。

2 .全局平均池化层取代全连接层模型，学习训练压力均先于卷积层。卷积的特征学习比较“高级”。 (因此收敛速度变慢？）

你为什么这么想？我的理解是，全局平均池化应该比所有连接层更淡化不同特征之间的相对位置组合关系。 “全球”的概念就是这样。因此，卷积训练的特点必须更“高级”。

3 .以上两种观点相结合，表明用全局平均池化层代替全连接层有优势，但不利于迁移学习。因为参数在卷积的各层网络中“固化”。添加新的分类意味着调整相当数量的卷积特征。全连通层模型可以进行更好的迁移学习，因为大部分参数都调整为全连通层。过渡时卷积层也可能调整，但相对较小。

这三点完全是我个人的理解，希望明亮的金毛信息能批评指正。

全局平均轮询和平均轮询的区别在于“全局”一词。 global和local实际上用于表示轮询窗口区域。 local获取特征地图的子区域，计算平均值，并在该子区域中滑动； global明显地对整个feature map求出了平均值。

因此，全局平均轮询的最终输出结果仍然是10个特征贴图而不是1个，每个特征贴图只剩下1个像素。这个像素是求出的平均值。写在官方的prototxt文件里。当网络移动到最后一个平均轮询层时，剩下10个性能图，每个大小为8 * 8。很自然，作者会将轮询窗口设置为8像素，意大利则是全球平均轮询。全局平均轮询显示窗口是一个放大到整个功能图的平均轮询。

每次谈到全球池化，GAP的意思是将avg轮询窗口大小设置为功能图大小，这是正确的，但这不是GAP的全部内涵。 GAP的意思是对整个网络进行结构正则化，防止过拟合。如何实现类似于所有连接的转换功能，同时减少参数并避免所有连接的拟合风险？直接从功能图频道着手。如果最终有1000个类，则最后一层卷积输出的“feature map”只有1000个通道。然后，将全局池应用于此功能图并应用输出长度为1000的向量，消除了所有连通层黑盒操作的特征，并直接提供给每个通道