tru的功效与作用,红花的功效与作用

从知道的问答开始； 33559 www.zhi Hu.com/question/29021768

1.为什么引入非线性激励函数？

在不应用激励函数的情况下，各层的输出是上层输入的线性函数，容易验证。不管神经网络有多少层，输出都是输入的线性组合，与无隐藏层具有同等效果。这种情况下是最原始的感知机(perceptron )

由于以上理由，决定引入非线性函数作为激励函数。这样，深层神经网络就有了意义，可以接近任意函数，而不再是输入的线性组合。最初的想法是，通过使用sigmoid或tanh函数输出有界，可以更容易地作为下一层的输入

2.为什么引入Relu?

第一，使用sigmoid等函数计算活性化函数时(指数运算)计算量多，通过反向传播求出误差梯度时，导出与除法相关的计算量较多，与此相对，使用Relu活性化函数时可以大幅节约整个过程的计算量

第二，对于深层网络，当sigmoid函数反向传播时，梯度很容易消失，无法进行深层网络训练。 (sigmoid函数接近饱和区域时，变换太慢，导数变为0，信息丢失) ) )。

第三，Relu通过使部分神经元输出为0，导致网络稀疏，减少参数的相互依赖关系，缓解过拟合问题的发生

当然，目前还对relu进行了一些改进，如prelu、random relu等，通过数据集提高了训练速度和精度

补充一句，现在主流的做法是多做一步batch normalization，尽量保证各层网络的输入具有相同的分布

一言以蔽之实际上，relu函数的作用是增加神经网络各层间的非线性关系。否则，如果没有激活函数，层与层之间就是简单的线性关系，每层相当于矩阵的乘法。这样如何才能完成神经网络需要完成的复杂任务呢？

为了解决图像分割、边界检测、超分辨率等问题而利用神经网络时，我们的输入(假设为x )和期待的输出(假设为y )之间的关系到底是什么呢？也就是说，在y=f(x)中，f是什么虽然我们也不知道，但是我们有点确信。它是f不是一个简单的线性函数，应该是抽象复杂的关系。那么，利用神经网络就是学习和保管这种关系

引导词在深度神经网络中通常用作神经元的激活函数修正线性单元(Rectified linear unit，ReLU）。 ReLU是从神经科学的研究开始的。 2001年，Dayan，Abott从生物学角度模拟了脑神经元接收信号更准确的激活模型。下图：

横轴是电流(a )，纵轴是神经元的放电速度(Firing Rate )。同年，Attwell等神经科学家通过研究大脑能量消耗过程，推测神经元的工作方式具有稀疏性和分布性。2003年，Lennie等神经科学家估计大脑同时被激活的神经元只有1~4%，神经元的工作在ReLU函数中，类似表达是如何表示的？与其他线性函数(如purlin )和非线性函数(如sigmoid、双曲正切)相比有什么优点？在这里，我给你看看我会慢慢来的。

简单的美首先，让我们来看看ReLU激活函数的形式，如下图所示。

从上面的图中可以看出，ReLU函数实际上是分段线性函数，将所有负值设置为0，正值保持不变，操作为单侧抑制。你不要小看这个简单的操作。正因为有这种单侧抑制，神经网络中的神经元也会稀疏激活。特别是对于CNN这样的深度神经网络模型，模型增加N层之后，理论上ReLU神经元的激活率将降低2的N次方倍这里有童鞋的话会问“ReLU的函数图像为什么必须这么长？相反，或者可以向下延伸吗？其实还得这么久。只要能起到单侧抑制作用，无论是镜面反转还是180度反转，最终神经元的输出都只是常数项系数的累加，不影响模型的训练结果。这样决定可能是为了配合生物学观点，让我们更容易理解。

那么问题是，这种疏松性是如何作用的？换句话说，为什么要稀疏神经元呢？请举个例子说明一下。当我们看到名侦探柯南时，我们可以根据故事进行思考和推理。这个时候，使用我们大脑的左半球；看蒙面演唱会的时候，我们可以和歌手一起哼唱。那个时候使用的是我们的右半球。左半球侧重于理性思维，右半球侧重于感性思维。也就是说，我们在进行运算和欣赏时，部分神经元被激活或抑制，所以可以说是各自的职责。例如，生病去医院，检查报告里有几百个指标，但与病情相关的通常只有这么多。同样，在训练深度分类模型时，与目标相关的特征往往只有这样，所以是相通的

过ReLU实现稀疏后的模型能够更好地挖掘相关特征，拟合训练数据。

此外，相比于其它激活函数来说，ReLU有以下优势：对于线性函数而言，ReLU的表达能力更强，尤其体现在深度网络中；而对于非线性函数而言，ReLU由于非负区间的梯度为常数，因此不存在梯度消失问题(Vanishing Gradient Problem)，使得模型的收敛速度维持在一个稳定状态。这里稍微描述一下什么是梯度消失问题：当梯度小于1时，预测值与真实值之间的误差每传播一层会衰减一次，如果在深层模型中使用sigmoid作为激活函数，这种现象尤为明显，将导致模型收敛停滞不前。