单层relu函数,为什么用relu激活函数

本文解读了“注意机制下的激活函数”，即自适应参数修正线性单元(adaptivelyparametricrectifierlinearunit，APReLU )。

1 .激活函数激活函数是目前人工神经网络的核心组成部分之一，其作用是进行人工神经网络的非线性化。首先，我们来看几个最常用的激活函数，如Sigmoid激活函数、Tanh激活函数和ReLU激活函数，如图所示。

Sigmoid激活函数和Tanh激活函数梯度的取值范围分别为[ 0，1 ]和[-1，1 ]。层数较多时，人工神经网络可能会遇到梯度消失问题。 ReLU激活函数的梯度为零或1，可以很好地避免梯度消失和梯度爆炸问题，近年来得到广泛应用。

但是，ReLU激活函数仍然存在缺陷。在人工神经网络训练过程中，当特征均小于零时，ReLU激活函数输出均为零。这个时候训练失败了。为了避免这种情况，有学者提出了leaky ReLU激活函数，不是将小于零的特征归零，而是将小于零的特征乘以0.1或0.01等小系数。

在leaky ReLU中，该系数的可取值由人工设定。但由于人工设定的系数并非总是最优的，何恺明等人提出了参数化ReLU激活函数(参数化ReLU激活函数、PReLU激活函数)，将该系数设定为可训练参数，用于人工神经网络的训练过程但是，PReLU激活函数有一个特点。训练过程完成后，PReLU激活函数中的这个系数将是固定的值。也就是说，对于所有测试样本，PReLU激活函数中该系数的取值相同。

到此为止，我介绍了一些常用的激活函数。这些激活函数有什么问题呢？如果某人工神经网络采用了上述任一激活函数或上述几种激活函数的组合，则该人工神经网络在训练完成后应用于测试样本时，表示所有测试样本采用的非线性变换是相同的也就是说，所有测试样本将经历相同的非线性转换。这是一个比较死板的方法。

如下图所示，假设原始特征空间用左侧的散点图表示，人工神经网络学习的上层特征空间用右侧的散点图表示，两种不同的样本用散点图中的小点和小方块表示，非线性函数用f、g、h表示。这些样本通过同一非线性函数实现了从原始特征空间到上层特征空间的转换。也就是说，图像中的“=”表示对于这些样本，它们经历的非线性变换完全相同。

那么，能否根据每个样本的特点，为每个样本分别设置激活函数的参数，并对每个样本进行不同的非线性变换？本文介绍的APReLU激活函数可以实现这一点。

2 .注意机制本文介绍的APReLU激活函数参考了经典的squeeze-and-excitation network (senet )，senet是一种典型的注意机制下的深度神经网络算法SENet的结构如下图所示。

在此说明SENet中包含的思想。在许多样本中，特征图中每个特征通道的重要度很可能不同。例如，样本a的特征频道1非常重要，特征频道2不重要；样本b的特征频道1不重要，特征频道2重要；此时，对于样本a，应当关注特征信道1 (即，应当给予特征信道1更高的权重)。相反，针对样本b，应当关注特征信道2 (即，应当给特征信道2以更高的权重)。

为了实现这个目的，SENet通过小型全连接网络，通过学习得到一组权重系数，对原始特征图的各信道进行加权。这样，包含训练样本和测试样本的每个样本都有一组唯一的权重，用于对每个特征通道进行加权。这是关注重要的特征渠道，赋予高权重的注意力机制。

3 .自适应参数修正线性单元(APReLU )激活函数APReLU激活函数本质上是SENet和PReLU激活函数的融合。在SENet中，在小型全连接网络中学习的权重，是用于各特征信道的权重。 APReLU激活函数也通过小的完全连接网络获得权重，将该组的权重作为PReLU激活函数内的系数，即负数部分的权重。 APReLU激活函数的基本原理如下图所示。

在APReLU激活函数中，可知非线性变换的函数形式与PReLU激活函数一模一样。唯一的不同是，在小型全连接网络中学习了APReLU激活函数的负数特征的权重系数。人工神经网络采用APReLU激活函数时，每个样本可以有自己的权重系数，即自己的非线性变换(见下图)。另外，APReLU激活函数的输入特征图和输出特征图大小相同，意味着可以很容易地将APReLU嵌入现有的深度学习算法中。

综上所述，APReLU激活函数可以每个样本具有自己的一组非线性变换，提供了更灵活的非线性变换方式，有助于提高模式识别精度。

参考文献

Zhao M，Zhong S，Fu X，et al.deepresidualnetworkswithadaptivelyparametricrectifierlinearunitsforfaultdiagnosis [ j ].ieeeetretrettttred

3359 IEEE xplore.IEEE.org/document/8998530 /