首页 > 编程知识 正文

vgg网络结构详解,vgg网络论文

时间:2023-05-05 04:52:28 阅读:188457 作者:3332

论文地址:https://arxiv.org/abs/1409.1556

一、网络结构和配置
主要贡献是使用一个带有非常小(3x3)卷积滤波器的架构对增加深度的网络进行了彻底的评估,这表明通过将深度推进到16 - 19个权重层,可以实现对先前art配置的显著改进
1、结构
(1)在训练中,我们的是络一个固定大小的输入224×224 RGB图像。我们所做的唯一预处理是从每个像素中减去在训练集上计算的平均RGB值。
(2)图像通过卷积层的堆栈传递,其中我们使用接受域很小的过滤器:3x3(这是捕捉左/右、上/下、中心概念的最小尺寸)。在其中一种配置中,我们还使用了11个卷积滤波器,它可以被看作输入通道的线性变换(后面是非线性)。卷积步长固定为1像素;空间填充是指经过卷积后保留空间分辨率,即3个卷积层的填充为1像素。
(3)后面由5个max-pooling层执行,它们遵循一些conv层(不是所有conv层都遵循max-pooling)。Max-pooling是在一个22像素的窗口上执行的,步长为2。
(4)所有隐藏层均使用ReLU。

2、部署
我们将用网名(A-E)来指代网络。所有配置都遵循第2.1节中给出的通用设计,仅在深度上有所不同:与网络A中的11个权重层不同(8 conv.和3 FC层)到网络E中的19个权重层(16个conv层和3个FC层)。conv.层的宽度(channel的数量)比较小,从第一层的64开始,每一层max-pooling后增加2倍,直到512。(图二为各个网络的参数个数)

二、分类框架
1、训练
(小批量梯度下降)mini-batch gradient descent:batch-size = 256
(动量)momentum = 0.9
通过权重衰减(weight decay)进行正则化
惩罚:L2 penalty multiplier = 5· 10-4
丢失率:dropout ratio = 0.5
2、测试
首先,将其向同性地重新缩放到预先定义的最小图像端,记为Q(我们也将其称为测试尺度)。我们注意到Q不一定等于训练量表S(如我们将在第4节中所示,对每个S使用几个Q值可以提高性能)。
然后,网络以类似于(Sermanet et al. 2014)的方式在重新缩放的测试图像上密集应用。即先将全连通层转换为卷积层(第一个FC层转换为7x7conv层,最后两个FC层转换为11conv层)。然后将得到的全卷积网络应用于整个(未裁剪的)图像。其结果是一个类得分映射,其中通道数等于类数,并具有依赖于输入图像大小的可变空间分辨率。
最后,为了得到图像的类分数的固定大小向量,对类分数映射进行平均池化。我们还增加了测试集的水平翻转图像;对原始图像和翻转图像的软最大值类后验进行平均,得到图像的最终得分。

三、改进总结
1 使用了更小的33卷积核,和更深的网络。两个33卷积核的堆叠相对于55卷积核的视野,三个33卷积核的堆叠相当于77卷积核的视野。这样一方面可以有更少的参数(3个堆叠的33结构只有77结构参数数量的(333)/(77)=55%);另一方面拥有更多的非线性变换,增加了CNN对特征的学习能力。
2 在VGGNet的卷积结构中,引入1*1的卷积核,在不影响输入输出维度的情况下,引入非线性变换,增加网络的表达能力,降低计算量。
3 训练时,先训练级别简单(层数较浅)的VGGNet的A级网络,然后使用A网络的权重来初始化后面的复杂模型,加快训练的收敛速度。
4 采用了Multi-Scale的方法来训练和预测。可以增加训练的数据量,防止模型过拟合,提升预测准确率。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。