vgg网络结构详解,vgg网络论文

论文地址：https://arxiv.org/abs/1409.1556

一、网络结构和配置
主要贡献是使用一个带有非常小(3x3)卷积滤波器的架构对增加深度的网络进行了彻底的评估，这表明通过将深度推进到16 - 19个权重层，可以实现对先前art配置的显著改进
1、结构
(1)在训练中，我们的是络一个固定大小的输入224×224 RGB图像。我们所做的唯一预处理是从每个像素中减去在训练集上计算的平均RGB值。
(2)图像通过卷积层的堆栈传递，其中我们使用接受域很小的过滤器:3x3(这是捕捉左/右、上/下、中心概念的最小尺寸)。在其中一种配置中，我们还使用了11个卷积滤波器，它可以被看作输入通道的线性变换(后面是非线性)。卷积步长固定为1像素；空间填充是指经过卷积后保留空间分辨率，即3个卷积层的填充为1像素。
(3)后面由5个max-pooling层执行，它们遵循一些conv层(不是所有conv层都遵循max-pooling)。Max-pooling是在一个22像素的窗口上执行的，步长为2。
(4)所有隐藏层均使用ReLU。

2、部署
我们将用网名(A-E)来指代网络。所有配置都遵循第2.1节中给出的通用设计，仅在深度上有所不同：与网络A中的11个权重层不同(8 conv.和3 FC层)到网络E中的19个权重层(16个conv层和3个FC层)。conv.层的宽度(channel的数量)比较小，从第一层的64开始，每一层max-pooling后增加2倍，直到512。（图二为各个网络的参数个数）

二、分类框架
1、训练
（小批量梯度下降）mini-batch gradient descent：batch-size = 256
（动量）momentum = 0.9
通过权重衰减（weight decay）进行正则化
惩罚：L2 penalty multiplier = 5· 10-4
丢失率：dropout ratio = 0.5
2、测试
首先，将其向同性地重新缩放到预先定义的最小图像端，记为Q(我们也将其称为测试尺度)。我们注意到Q不一定等于训练量表S(如我们将在第4节中所示，对每个S使用几个Q值可以提高性能)。
然后，网络以类似于(Sermanet et al. 2014)的方式在重新缩放的测试图像上密集应用。即先将全连通层转换为卷积层(第一个FC层转换为7x7conv层，最后两个FC层转换为11conv层)。然后将得到的全卷积网络应用于整个(未裁剪的)图像。其结果是一个类得分映射，其中通道数等于类数，并具有依赖于输入图像大小的可变空间分辨率。
最后，为了得到图像的类分数的固定大小向量，对类分数映射进行平均池化。我们还增加了测试集的水平翻转图像;对原始图像和翻转图像的软最大值类后验进行平均，得到图像的最终得分。

三、改进总结
1 使用了更小的33卷积核，和更深的网络。两个33卷积核的堆叠相对于55卷积核的视野，三个33卷积核的堆叠相当于77卷积核的视野。这样一方面可以有更少的参数（3个堆叠的33结构只有77结构参数数量的(333)/(77)=55%）；另一方面拥有更多的非线性变换，增加了CNN对特征的学习能力。
2 在VGGNet的卷积结构中，引入1*1的卷积核，在不影响输入输出维度的情况下，引入非线性变换，增加网络的表达能力，降低计算量。
3 训练时，先训练级别简单（层数较浅）的VGGNet的A级网络，然后使用A网络的权重来初始化后面的复杂模型，加快训练的收敛速度。
4 采用了Multi-Scale的方法来训练和预测。可以增加训练的数据量，防止模型过拟合，提升预测准确率。