首页 > 编程知识 正文

introduction translation study,学术研究你的成功之道

时间:2023-05-05 11:10:39 阅读:146337 作者:393

eepresiduallearningforimagerecognitionresnet

论文链接:https://arxiv.org/ABS/1512.03385

一方面,Problem Statement神经网络的深度很重要,但训练很难。 为此, 学习更好的网络就像叠加更多层一样容易吗?从一开始就提出了阻碍网络收敛的问题。 这个问题可以通过标准初始化和中间标准化层得到很大的解决,但是出现了堆叠网络层会导致梯度的消失或者爆炸的问题。 degradation http://www.Sina.com /不是由overfitting引起的。 因此,该降级表明并不是所有的网络结构都容易优化。

二、Direction作者发现:随着网络深度的增加,精度饱和,随后迅速下降。 这不符合常识。 如果给定kkkk层的网络f f f是当前最佳网络,则可以构造更深的网络,其最后几层仅通过该网络f f f的第kk层的输出的恒等映射(Identity Mapping )来获得与f f f一致的结果虽然K K K可能还不是所谓的“最佳阶数”,但更深的网络可以获得更好的结果。 总之,与浅网络相比,更深网络的表现不应该更糟。 因此,一个合理的猜测是,为了学习退化(degradation),提出了一个实时学习框架。

三、Method假设所需映射为h(x ) h(x ) h(x ) x ) x ) ),在多个层叠非线性层中设置另一个映射f(x ) :=h ) f(x ) h(x )-xf ) x ) 在此,认为残差映射的优化比优化原始映射更容易。 所以添加了'随着网络深度的增加,精度达到饱和(这可能并不奇怪),然后迅速下降。'。 这包括对神经网络来说,恒等映射并不容易拟合。。 实时块的结构图如下:

该结构不会引入额外的参数量和计算复杂度。 如果添加的网络层可以构建为恒等映射

更深的网络模型相对于它更小的模型来说,应该拥有较低training error。所以退化问题意味着:优化器通过多个非线性层来近似恒等映射可能存在困难。而使用了上面的residual learning framework,如果恒等映射是最优化的话,优化器会简单地使得多个非线性层的权重趋向于0来近似恒等映射。

恒等映射的公式可以定义为:

y = F ( x , { W i } ) + x y = F(x, {W_i}) + x y=F(x,{Wi​})+x

其中 x x x和 y y y是网络层的输入和输出。函数 F ( x , { W i } ) F(x,{W_i}) F(x,{Wi​})表示residual mapping。 根据上图显示,有两个网络层,所以可以进一步写为:
F = W 2 σ ( W 1 x ) F=W_2sigma(W_1x) F=W2​σ(W1​x)
其中 σ sigma σ是ReLU, F + x F + x F+x表示shortcut connection的element-wise addition,且 x x x和 F F F的维度必须一致。最后再使用一个ReLU函数。

identity mapping能够有效地解决退化问题。

上图是对于一维的,而对于卷积层来说,residual block的结构如下:

最后来看一下ResNet的网络结构:

四、 Conclusion

本文出发点并不是解决梯度消失和梯度爆炸的问题,而是解决网络退化的问题。梯度消失可以由Batch Normalization来解决,保证前向的梯度信号是一个非零方差值。作者发现,更深的网络可以得到更好的精度,但是随着网络加深会导致网络退化的问题,因此引入了Residual learning framework。在residual-1202网络结构中,CIFAR-10的training error 小于 0.1%,但testing error和residual-110层差不多,说明对于这个小型的数据来说,存在了过拟合,但表明了网络越深,精度肯定会好。

Reference https://zhuanlan.zhihu.com/p/80226180

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。