线性回归基本上可以是LR的简化版,所以本文主要讨论两个问题。 1 .为什么LR可以将权重初始化为0? 2 .为什么神经网络不能将权重初始化为0?
本文参考资料: https://庄兰.智惠.com/p/75879624
为什么LR可以将权重初始化为0?
为什么神经网络不能将参数初始化为0? 下图为示例。
情况1:w和b都初始化为0
那么,由于反向传播公式,从上图的简单反向传播可以看出,每个倒圆角的参数更新只能从后向前更新一级参数。 另外,在任何情况下,由于初始化参数完全相同,上述图中的a 1 a_1 a1和a 2 a_2 a2的值相同,因此更新的参数值也相同,之后的反复也相同,同一层次的各节点的参数值完全相同这如果隐藏神经元的对称性同一层各神经元的输出相同,这样的神经网络就没有意义了。
情况2 )模型的所有w初始化为0,b随机初始化。 从上图可见,在此情况下,模型最初每次倒圆角只能从后向前更新一级参数,但某些b在经过足够的倒圆角数后更新所有参数。 但是,这种方式更新较慢,且存在梯度消失、梯度爆炸等问题通常不这样做。
模型中的所有w都被随机初始化,b初始化为0。 从上图中可以看到,每个层的参数更新与其下层的b无关。 因此,b的初始值不会影响BP算法的效果,所有权值和b都会被更新。