1bn是多少钱,dwd层和dws层

文章目录1.Bn层详细解2 .卷积神经网络相关激活函数过拟合

1.Bn层详细情况

3359 blog.csdn.net/QQ _ 37100442/article/details/81776191

1 ) BN层在网络中的作用

BN层为批量标准化操作，公式为减去平均值去除标准差，加。将输入分布归一化为0、1分布，激活函数作用更好，解决了梯度消失问题。此外，由于数据规范化，提高了网络的收敛速度。但是，似乎没有证据能够解决高层网络输入分布变化剧烈的问题(Internal Covariate Shift )。

2 ) BN层为什么要转换重构

尽量恢复以前的分布，防止下层神经元学习的分布被破坏。

3 ) bn层如何解决梯度消失问题，保证网络稳定性https://庄兰. zhi Hu.com/p/33006526

4 ) BN训练和测试时的区别？

训练时用现在的batch计算均方差的测试时用所有的batch进行了累积。

5 ) BN层有哪些超级参数？

momentum、affine、track_running_stats。

6 ) BN层的优势

提高训练速度，增大学习率，即使小的学习率也能使用快的学习速度。要忽略拟合的dropout l2参数，需要较小的L2正则项约束。

BN算法后，参数归一化，原本激活函数影响不大的神经元，分布明显。经过一个激活函数后，神经元会自动减弱或相减，无需对其进行dropout。在L2中，由于每个训练都是规范化的，因此数据分布的差异导致的参数变动过大，参数很少会增大。 2 .卷积神经网络相关1 )卷积层参数量计算，可打乱训练数据集，防止训练发生偏差：

2 )卷积层计算量

LeNet5 :第一个卷积神经网络，卷积层平均轮询全连接AlexNet :ReLU增强非线性，避免DropOut过拟合，MaxPooling，小于GPUVGG:的卷积核

通过NIN，1 * 1卷积核inceptionv1:1*1卷积核减少特征数量；不同大小的卷积核增大了网络的宽度和尺度适应性。

激活函数1.常用激活函数的比较

3359砖局域网. zhi Hu.com/p/32610035

激活函数在神经元中引入了非线性元素，但如果不使用激活函数，无论神经网络有多少层，输出都是输入的线性组合。

2.激活函数以0为中心

3359 Liam.page/2018/04/17/zero-centered-active-function /

由于Sigmoid函数的输出不以零为中心，神经网络的收敛速度变慢。参数更新

因此，各更新方向的差异完全由对应的输入值的符号决定。

以零为中心的影响

锯齿更新

过拟合https://庄兰. zhi Hu.com/p/68488202

L1正则化是指权重矩阵中各要素的绝对值之和。

由于正则项优化会减少参数绝对值的总和，因此L1正则化倾向于选择稀疏权重矩阵。稀疏矩阵是指许多元素为0，只有少数元素具有非零值的矩阵。 L1正则化主要用于提取重要特征，舍弃不重要的特征。 L2正则化(相当于进行了特征筛选)是指权重矩阵中各元素的平方和。

为了优化正则项，减少参数平方的和，L2正则化倾向于选择小值权重参数，即，权重衰减，主要用于防止模型的过拟合。是最常用的规范化方法。为什么引入正则化项可以防止过度拟合呢？通过引入权重参数限制模型的复杂性，提高模型的泛化能力。 L2正则化可以对较大的数值权重给予惩罚。由此，没有对整个模型单独产生过大影响的特征。也就是说，各维对最终结果的影响不是很大，不仅可以依赖其中的少数特征，模型还可以利用很多维的特征。 (选择值小的权重参数。)。对于过拟合，拟合函数的系数通常非常大，(考虑到每个点，所形成的拟合函数的变化较大的)系数较大的后验概率)增加数据

数据增强提前停止(early stopping ) ) ) ) )。

在模型开始拟合之前中断学习过程