文献阅读报告范文,阅读文献后的心得体会

ResNet文献阅读报告1、背景概要2、残差结构3、bottleneck结构4、实验详细情况(1) ResNet的网络恶化问题解决能力的验证)2)与SOTA的比较)3) CIFAR-10的实验结果；4 )目标检测的实验结果)

一、背景介绍

我选的文献是deepresiduallearningforimagerecognition，这篇论文的第一作者为什么是凯敏，获得了2016年CVPR的最佳奖项。

深度学习中的网络，从AlexNet到VGG再到谷歌net，网络的层数逐渐加深。更深的网络具有更强的特征，可以提取更复杂的特征，原则上应该会带来更好的结果。但是，仅靠层叠数加深网络，会带来梯度消失和梯度爆炸问题，使网络难以收敛，同时网络性能开始逐渐饱和和下降，这也称为深度网络退化问题。

在此背景下，作者提出了ResNet深度残差网络，解决退化问题，使网络性能随着网络层数的增加而增加。

二、在残差结构ResNet中引入了残差网络结构。也就是说，在输入层和输出层间添加了直接路径，即恒等映射。对于典型网络，网络需要学习从输入到输出的映射H(x)，对于残差网络，网络需要学习H(x)-x。残差结构如下图所示。

残差结构的提出基于作者的假设：如果更多的层只是恒等映射到更深的网络上，那么更深的网络的性能不会比浅的网络的性能差。残差结构没有增加原始模型的计算复杂度，也没有增加模型的参数量，但使网络的学习更加容易。

三、bottleneck结构在构造ResNet-18和ResNet-34时，采用上述残差结构，在需要建立更深的ResNet模型时，采用称为bottleneck的残差结构。

在bottleneck残差结构中，输入经过11的卷积降维，经过33的卷积层后，经过11的卷积降维，从而大大减少了模型参数量，同时加快了模型的计算速度。 Bottleneck残差结构与一般残差结构的对比如下图所示。

四、实验细节(1) ResNet解决网络退化问题能力验证作者首先比较了18层和34层一般网络在ImageNet数据集上的分类效果，发现34层深层网络的表现不如18层浅层网络；随后，作者比较了18层和34层残差网络在ImageNet数据集上的分类效果，相反发现34层ResNet网络优于18层ResNet网络。具体表现见下表。

)与SOTA的比较作者对在ImageNet上融合6个深度ResNet模型的融合模型进行了评价，并与以前的状态自动(SOTA )模型进行了比较，结果在测试集中达到了3.57%的top-5错误率

)3) CIFAR-10实验结果作者同样在CIFAR-10数据集上进行了相似的实验探究，发现对于普通网络来说，更深的网络存在退化问题，带来更高的训练误差。相对于残差网络，更深的网络可以达到更低的训练误差，表现出更好的效果。

此外，作者在该数据集上研究了1000多层ResNet模型的分类效果，发现1202层网络和110层网络的训练误差相近，但1202层网络测试误差更大，作者认为这是由拟合引起的

有关实验的数据请参照下图。

)目标检测的实验结果作者将ResNet模型进一步应用于目标检测领域，用ResNet-101替代FasterRCNN方法中的VGG-16模型，PASCAL和MS COCO数据集均较传统SOTA方法有明显提高请参照下表。

五、本文总结提出了学习残差的思想，将残差结构应用于深层网络模型，便于网络对恒等映射的学习，解决了深层网络存在的退化问题，网络的性能可以随着网络深度的增大而提高。因此，ResNet的提出也成为卷积神经网络处理图像问题的里程碑事件，推动了计算机视觉领域的进一步发展。

纵观这篇文章，笔者提出的残差结构非常直观、易懂、简单，但难以思考，我认为这篇文章可能也是经典的理由。真正惊人的作品往往是简单直观，却很好地解决了问题。读这篇文章给我的启发，也在今后的学术生活中不断鼓励着我。