首页 > 编程知识 正文

论文文献阅读笔记模板,科研文献阅读笔记

时间:2023-05-06 09:56:52 阅读:146349 作者:2447

04 deepresiduallearningforimagerecognitionmotivation :前:层数越多越有效

问题:学习更好的网络是积累更多的层吗? 或者,学习更好的网络就像积累更多的层一样容易吗?

阻碍:坡度消失/坡度爆炸阻碍了训练的收敛

解决方案: normalizedinitializationandintermediatenormalizationlayers使模型收敛更快

阻碍2:退化探针随着网络的加深正确率饱和,然后下降。 这不是通过拟合造成的,如果将更多的层添加到相应的模型中,训练误差可能反而会更高

解决方案:深度再现学习框架。

insteadofhopingeachfewstackedlayersdirectlyfitadesiredunderlyingmapping,weexplicitlylettheselayersidualmapping。

残差:实际观察值与拟合值之差

我们想要的映射: h(x ) )。

实际要求这些层的映射: f(x )=h ) x )-x

这样,我们想要要求的映射将是f(x ) x

假设求残差映射的方法被优化和求出。 当原本期望的映射是恒等映射时,将残差映射学习为0比大量使用非线性层学习恒等映射更容易。

f(x ) x的具体实现是短连接

实验合格:随着深度优化、训练熟练的层数的加深,准确度真的有所提高

也就是说,直接映射很难学,而残差映射比较容易学

relatedworkresidualrepresentationsshortcutconnectionsdeepresiduallearningresiduallearning表示,如果一些非线性层可以逐渐接近h(x )

其实这里的h(x )-x不能严格地说是残差。 这里我们将shortcut上的所有映射都设置为恒等映射

移动:

在训练的网络中再增加几个层时,如果其中很多层是恒等映射,在理论上就不应该得到比原来更差的结果。 但实际上比原来更糟。 这表明,多个非线性层很难适合恒等映射。 根据我上面学习残差的思想,我把所有的权重都定为0,那么我学到的f(x )就等于0。 0 x是我需要的最佳功能,即恒等映射

现实中很少让人们直接学习恒等映射,但这种思想很有用。

Identity Mapping by Shortcuts ReLU

shortcutconnectionintroducesnoextraparametersandcomputationcomplexity

我认为残差是指实际观察值和拟合值的差,但我的实际观察值其实不是x。 为什么要加上恒等映射x呢? 实验证明,加x可以充分解决降级问题,节约计算资源

在残差块只有一个层,即y=W1x x的情况下,实验上性能似乎没有很大提高

上面的分析都是针对所有连接层,但同样适用于卷积层

networkarchitecturesplainnetwork : inspiredbyvgg

如果residual network :块的输入和输出维不相等(输出维高于输入),则直接使用0填充或使用1*1卷积),后者略优于前者

实施计算评估

标准颜色评估

batchnormalizationafterconvolutionandbeforeactivation

experimentsimagenetclassificationplainnetworks 34-layer略低于18-layer :不应该是梯度消失导致的(使用BN,而且34-layer的结果具有竞争力)

residualnetworksobservations :

1 )更深的网络训练误差小,在验证集中可以很好地泛化。

2 ) 34层resnet模型的错误率优于plain的结果

3 ) res收敛快

Identity vs Projection Shortcuts以前也说过shortcut直接用x。 这是因为不引入参数和额外的计算,可以得到充分的效果。 如果我在shortcut上使用项目呢?

使用projection比直接使用x更有效,主要是因为引入了更多的附加参数。 但是,项目并不是解决降级问题的关键(只有计算残差,项目才是进一步的优化)。

使用恒等shortcut是bottleneck结构避免引入计算量和复杂性的关键

深度引导网络体系结构的目的:考虑实际可承受的时间成本

首先用1*1降维,然后用3*3卷积,最后用1*1适当升维。

主要是利用1*1适当降低维度

使用projection shortcut,模型的大小和时间复杂度将增加一倍

使用bottleneck block结构的152-layer resnet的计算复杂度低于VGG16/19

CIFAR-10 and Analysis的有趣之处在于,它的重点是探索极深的网络表现,而不是必须超越现有的最高级别,因此可以适当地简化所使用的网络结构

随着网络变深,分层响应分析倾向于在resnet的每一层上对信号的修改越来越少,从而导致重建函数接近0。 (

Exploring over 1000 layersopenproblems :

测试性分层(over fitting )。

对于highway network,处理部分输入,另一部分直接通过

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。