影响深度卷积神经网络算法,卷积神经网络优缺点

作者：浮哥

链接： https://www.zhi Hu.com/question/29366638/answer/864113705

http://www.Sina.com/dnn http://www.Sina.com/dnn是包括多个隐藏层的神经网络，根据神经元的特征，被分类为MLP、CNNs、RNNs等。从神经元的角度来说明，MLP是最朴素的DNN，CNNs是encode具有空间相关性的DNN，RNNs是encode

一.神经网络的发展DNN是指深度神经网络，它是一个很广的概念，某种意义上CNN、RNN、GAN等都属于其范畴之内

神经网络技术起源于20世纪50、60年代，当时称为感知器，具有输入层、输出层、隐含层。输入的固有向量通过隐式层变换到达输出层，在输出层得到分类结果。早期感知机的推进者是Rosenblatt。但是，Rosenblatt的单层感知机存在着无法再严重的问题，对于计算稍微复杂的函数，其计算能力无能为力。

与CNN（卷积神经网络）的区别是DNN特指全连接的神经元结构，并不包含卷积单元或是时间上的关联。

随着数学的发展，这一缺陷直到20世纪80年代才被Rumelhart、Williams、Hinton、LeCun等发明的多层感知机(multilayer perceptron )所克服。多层感知机，顾名思义就是有多个隐含层的感知机。

多层感知机摆脱了初始离散传递函数的束缚，采用sigmoid和tanh等连续函数模拟神经元对激励的响应，训练算法采用Werbos发明的反向传播BP算法。没错，这就是我们现在说的神经网络(NN )！多层感知机解决了以往无法模拟异或的缺陷，同时更多的层数使网络能够更好地描述现实世界的复杂情况。多层感知机给我们的启示是，神经网络层数直接决定了对现实的刻画能力——，每层利用更少的神经元拟合利用更复杂的函数。

尽管hsjdl们预想到神经网络需要变得更深，噩梦总是缠绕在左右。随着神经网络层数的加深，优化函数越来越容易陷入局部最优解，这个“陷阱”越来越偏离真正的全局最优。利用有限数据训练的深层网络比浅层网络的性能更差。另外，另一个不可忽视的问题是，随着网络层数的增加，“坡度消失”现象将更加严重。具体来说，经常使用sigmoid作为神经元的输入输出函数。在幅度为1的信号中，当BP反向传播该梯度时，该梯度在每次传播该层时衰减到原始0.25。层数多的话，梯度指数衰减后的低层基本上不能接受有效的训练信号。

1.感知机

2006年，Hinton利用先验训练方法缓解了局部最优解问题，将抑制层推广至7层(参考论文： Hinton G E，salakhutdinovrr.reducingthedimensionalityofdatawithneuralnettation ) 2006、313 (5786 ) :504-507.)，神经网络具有真正意义上的“深度”，从而揭示了深度学习热潮。这里的“深度”在语音识别中没有固定的4层网络可以识别为“深”的定义，在图像识别中20层以上的网络并不少见。为了克服梯度消失，ReLU、maxout等传递函数代替sigmoid，形成了目前DNN的基本形式。仅从结构来说，全部连接的DNN和上图的多层感知机没有任何区别。值得一提的是，今年出现的高速公路网络(highway network )和深度残差学习)进一步避免了梯度方差问题(网络层数达到了前所未有的百层以上)；深度残差学习) 152层)。

2.多层感知机

发现在完全连接DNN的结构中下层神经元和所有上层神经元可以连接，潜在的问题是参数数量的膨胀。假设您输入了像素为1K*1K的图像。隐含层有1M个节点，仅这一层就有10^12个权重，需要训练。这不仅容易过拟合，还容易陷入局部最佳。另外，可以理解，固有的局部图案(例如，轮廓、边界、人眼、鼻子、嘴等)可用于图像，并且图像处理中的概念和神经网络技术应当被组合。这时，我们可以祭祀主题所说的卷积神经网络CNN。在CNN的情况下，并不是所有的上下层神经元都直接连接，而是通过“3.深度神经网络（DNN）”进行中介。相同的卷积核在所有图像中被共享，图像通过卷积操作保持原始位置关系。

在图像的情况下，4.卷积神经网络(CNN)CNN之所以用于图像识别，是因为CNN模型限制了参数的个数，引出了局部结构的特征。遵循同样的思路，通过利用语音频谱结构中的局部信息，CNN也同样可以应用于语音识别。在通常的全连接网络或CNN中，各层神经元的信号只能向上层传播，由于样本的处理在各时间点是独立的，因此也称为http://www.Sina.com/(feed-forwardneuralnetworks )

卷积核

神经网络具备:
- 并行
- 容错
- 硬件实现
- 自我学习
以上是神经网络计算方法与传统方法的区别所在。

多层神经网络包含哪几层？

传统意义上的多层神经网络包含三层：
- 输入层
- 隐藏层
- 输出层
其中 隐藏层的层数根据需要而定，没有明确的理论推导来说明到底多少层合适，多层神经网络做的步骤是：特征映射到值，特征是人工挑选。二.DNN(深度神经网络)

传统的人工神经网络（斯文的书包）由三部分组成：输入层，隐藏层，输出层，这三部分各占一层。而深度神经网络的“深度”二字表示它的隐藏层大于2层，这使它有了更深的抽象和降维能力。

三.CNN(卷积神经网络)

对卷积神经网络的研究始于二十世纪80至90年代，时间延迟网络和LeNet-5是最早出现的卷积神经网络；在二十一世纪后，随着深度学习理论的提出和数值计算设备的改进，卷积神经网络得到了快速发展，并被大量应用于计算机视觉、自然语言处理等领域。

1.什么是卷积神经网络

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的 前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一。由于卷积神经网络能够进行平移不变分类（shift-invariant classification），因此也被称为“平移不变人工神经网络（Shift-Invariant Artificial Neural Networks, SI斯文的书包）” 。
《百度百科》

2.卷积神经网络的基本概念

局部感受野（local receptive fields）共享权重（shared weights）池化（pooling）

3.卷积神经网络的构成

典型的卷积神经网络由3部分构成：

卷积层池化层全连接层

卷积层负责提取图像中的局部特征；池化层用来大幅降低参数量级(降维)；全连接层类似传统神经网络的部分，用来输出想要的结果。

A.卷积——提取特征

卷积层的运算过程如下图，用一个卷积核扫完整张图片：

这个过程我们可以理解为我们使用一个过滤器（卷积核）来过滤图像的各个小区域，从而得到这些小区域的特征值。

在具体应用中，往往有多个卷积核，可以认为，每个卷积核代表了一种图像模式，如果某个图像块与此卷积核卷积出的值大，则认为此图像块十分接近于此卷积核。如果我们设计了6个卷积核，可以理解：我们认为这个图像上有6种底层纹理模式，也就是我们用6中基础模式就能描绘出一副图像。以下就是25种不同的卷积核的示例：

总结：卷积层的通过卷积核的过滤提取出图片中局部的特征，跟上面提到的人类视觉的特征提取类似。

B.池化层（下采样）——数据降维，避免过拟合

池化层简单说就是下采样，他可以大大降低数据的维度。其过程如下：

上图中，我们可以看到，原始图片是20×20的，我们对其进行下采样，采样窗口为10×10，最终将其下采样成为一个2×2大小的特征图。

之所以这么做的原因，是因为即使做完了卷积，图像仍然很大（因为卷积核比较小），所以为了降低数据维度，就进行下采样。

总结：池化层相比卷积层可以更有效的降低数据维度，这么做不但可以大大减少运算量，还可以有效的避免过拟合。

C.全连接层——输出结果

这个部分就是最后一步了，经过卷积层和池化层处理过的数据输入到全连接层，得到最终想要的结果。

经过卷积层和池化层降维过的数据，全连接层才能”跑得动”，不然数据量太大，计算成本高，效率低下。

典型的 CNN 并非只是上面提到的3层结构，而是多层结构，例如 LeNet-5 的结构就如下图所示：

卷积层 – 池化层- 卷积层 – 池化层 – 卷积层 – 全连接层

4.卷积神经网络有2大特点

能够有效的将大数据量的图片降维成小数据量能够有效的保留图片特征，符合图片处理的原则

5.卷积神经网络的擅长处理领域

卷积神经网络 – 卷积神经网络最擅长的就是图片的处理

6.卷积神经网络解决了什么问题？

在卷积神经网络出现之前，图像对于人工智能来说是一个难题，有2个原因：

图像需要处理的数据量太大，导致成本很高，效率很低图像在数字化的过程中很难保留原有的特征，导致图像处理的准确率不高

A.需要处理的数据量太大

图像是由像素构成的，每个像素又是由颜色构成的。现在随随便便一张图片都是 1000×1000 像素以上的，每个像素都有RGB 3个参数来表示颜色信息。假如我们处理一张 1000×1000 像素的图片，我们就需要处理3百万个参数！

1000×1000×3=3,000,000

这么大量的数据处理起来是非常消耗资源的，而且这只是一张不算太大的图片！

卷积神经网络 – CNN 解决的第一个问题就是「将复杂问题简化」，把大量参数降维成少量参数，再做处理。

更重要的是：我们在大部分场景下，降维并不会影响结果。比如1000像素的图片缩小成200像素，并不影响肉眼认出来图片中是一只猫还是一只狗，机器也是如此。

B.保留图像特征

假如一张图像中有圆形是1，没有圆形是0，那么圆形的位置不同就会产生完全不同的数据表达。但是从视觉的角度来看，图像的内容（本质）并没有发生变化，只是位置发生了变化。

所以当我们移动图像中的物体，用传统的方式的得出来的参数会差异很大！这是不符合图像处理的要求的。

而 CNN 解决了这个问题，他用类似视觉的方式保留了图像的特征，当图像做翻转，旋转或者变换位置时，它也能有效的识别出来是类似的图像。

7.卷积神经网络的典型架构

LeNet-5AlexNetVGG-16Inception-V1Inception-V3RESNET-50XceptionInception-V4Inception-ResNetsResNeXt-50到