首页 > 编程知识 正文

tru的功效与作用,红花的功效与作用

时间:2023-05-04 23:03:13 阅读:175086 作者:4308

从知道的问答开始; 33559 www.zhi Hu.com/question/29021768

1.为什么引入非线性激励函数?

在不应用激励函数的情况下,各层的输出是上层输入的线性函数,容易验证。 不管神经网络有多少层,输出都是输入的线性组合,与无隐藏层具有同等效果。 这种情况下是最原始的感知机(perceptron )

由于以上理由,决定引入非线性函数作为激励函数。 这样,深层神经网络就有了意义,可以接近任意函数,而不再是输入的线性组合。 最初的想法是,通过使用sigmoid或tanh函数输出有界,可以更容易地作为下一层的输入

2.为什么引入Relu?

第一,使用sigmoid等函数计算活性化函数时(指数运算)计算量多,通过反向传播求出误差梯度时,导出与除法相关的计算量较多,与此相对,使用Relu活性化函数时可以大幅节约整个过程的计算量

第二,对于深层网络,当sigmoid函数反向传播时,梯度很容易消失,无法进行深层网络训练。 (sigmoid函数接近饱和区域时,变换太慢,导数变为0,信息丢失) ) )。

第三,Relu通过使部分神经元输出为0,导致网络稀疏,减少参数的相互依赖关系,缓解过拟合问题的发生

当然,目前还对relu进行了一些改进,如prelu、random relu等,通过数据集提高了训练速度和精度

补充一句,现在主流的做法是多做一步batch normalization,尽量保证各层网络的输入具有相同的分布

一言以蔽之实际上,relu函数的作用是增加神经网络各层间的非线性关系。 否则,如果没有激活函数,层与层之间就是简单的线性关系,每层相当于矩阵的乘法。 这样如何才能完成神经网络需要完成的复杂任务呢?

为了解决图像分割、边界检测、超分辨率等问题而利用神经网络时,我们的输入(假设为x )和期待的输出(假设为y )之间的关系到底是什么呢? 也就是说,在y=f(x)中,f是什么虽然我们也不知道,但是我们有点确信。 它是f不是一个简单的线性函数,应该是抽象复杂的关系。 那么,利用神经网络就是学习和保管这种关系

引导词在深度神经网络中通常用作神经元的激活函数修正线性单元(Rectified linear unit,ReLU)。 ReLU是从神经科学的研究开始的。 2001年,Dayan,Abott从生物学角度模拟了脑神经元接收信号更准确的激活模型。 下图:

横轴是电流(a ),纵轴是神经元的放电速度(Firing Rate )。 同年,Attwell等神经科学家通过研究大脑能量消耗过程,推测神经元的工作方式具有稀疏性和分布性。2003年,Lennie等神经科学家估计大脑同时被激活的神经元只有1~4%,神经元的工作在ReLU函数中,类似表达是如何表示的? 与其他线性函数(如purlin )和非线性函数(如sigmoid、双曲正切)相比有什么优点? 在这里,我给你看看我会慢慢来的。

简单的美首先,让我们来看看ReLU激活函数的形式,如下图所示。

从上面的图中可以看出,ReLU函数实际上是分段线性函数,将所有负值设置为0,正值保持不变,操作为单侧抑制。 你不要小看这个简单的操作。 正因为有这种单侧抑制,神经网络中的神经元也会稀疏激活。 特别是对于CNN这样的深度神经网络模型,模型增加N层之后,理论上ReLU神经元的激活率将降低2的N次方倍这里有童鞋的话会问“ReLU的函数图像为什么必须这么长? 相反,或者可以向下延伸吗? 其实还得这么久。 只要能起到单侧抑制作用,无论是镜面反转还是180度反转,最终神经元的输出都只是常数项系数的累加,不影响模型的训练结果。 这样决定可能是为了配合生物学观点,让我们更容易理解。

那么问题是,这种疏松性是如何作用的? 换句话说,为什么要稀疏神经元呢? 请举个例子说明一下。 当我们看到名侦探柯南时,我们可以根据故事进行思考和推理。 这个时候,使用我们大脑的左半球; 看蒙面演唱会的时候,我们可以和歌手一起哼唱。 那个时候使用的是我们的右半球。 左半球侧重于理性思维,右半球侧重于感性思维。 也就是说,我们在进行运算和欣赏时,部分神经元被激活或抑制,所以可以说是各自的职责。 例如,生病去医院,检查报告里有几百个指标,但与病情相关的通常只有这么多。 同样,在训练深度分类模型时,与目标相关的特征往往只有这样,所以是相通的

ReLU实现稀疏后的模型能够更好地挖掘相关特征,拟合训练数据

此外,相比于其它激活函数来说,ReLU有以下优势:对于线性函数而言,ReLU的表达能力更强,尤其体现在深度网络中;而对于非线性函数而言,ReLU由于非负区间的梯度为常数,因此不存在梯度消失问题(Vanishing Gradient Problem),使得模型的收敛速度维持在一个稳定状态。这里稍微描述一下什么是梯度消失问题:当梯度小于1时,预测值与真实值之间的误差每传播一层会衰减一次,如果在深层模型中使用sigmoid作为激活函数,这种现象尤为明显,将导致模型收敛停滞不前。

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。