梯度下降算法代码,sgd优化算法

在机器学习中，对于很多监控学习模型，需要对原始模型建立损耗函数，其次通过优化算法优化损耗函数，找到最佳参数。

梯度下降法作为机器学习中常用的优化算法，在其求解过程中，只需求解损耗函数的一阶导数，计算成本比较小。

基本的想法可以理解为，我们从有山的一点开始，找最颤抖的坡走一步，也就是找坡度方向，达到一点后，找最陡的坡，再走一步，不断地走，直到到达最低点(

坡度下降法包括“批坡度下降”、“随机坡度下降”和“小批量坡度下降”3种其中小批量梯度下降法也常用于通过深度学习进行模型训练。接下来，我们将了解这三种不同的坡度下降法。

为了清楚起见，这里使用只包含一个特征的线性回归展开。此时线性回归的假设函数如下。

这里，I=1，2，m表示样本数量。

对应的目标函数(成本函数)如下所示。

1、批量坡度下降法(Batch Gradient Descent，BGD )批量坡度下降法是最原始的形式，是指每次迭代均采用所有样本进行坡度更新。从数学上可以理解为：

(1)对目标函数求偏导数：

其中I=1，2，m表示样本数量，j=0，1表示特征数量，其中使用了偏置项x(I )0=1。

)2)每次迭代更新参数：

在此更新时，注意到存在对所有样本进行计算处理的加法函数，可以与以下的SGD法进行比较。

伪代码的格式如下。

优点：

(1)一次迭代对所有样本进行计算，此时采用矩阵操作。实现了并行

)2)由所有数据集确定的方向可以更好地表示整个样本，并更准确地指向具有极值的方向。目标函数为凸函数时，BGD必须为能够得到全局最优。

缺点：

)1) 3358www.Sina.com/时，每次迭代的每一步都需要对所有样本进行计算。样本数目 m 很大时

从反复的次数来看，BGD反复的次数相对较少。迭代收敛曲线的图像可以表示为：

2、随机梯度下降(Stochastic Gradient Descent，SGD )随机梯度下降法与批量梯度下降法不同，随机梯度下降用训练过程会很慢更新参数。加快训练速度。

示例的目标函数如下：

每次迭代使用一个样本

)1)针对每次迭代，而不是所有训练数据中的丢失函数，通过随机优化某个训练数据中的丢失函数，每个参数的更新为优点：。

速度大大加快

)1)缺点：因为即使目标函数是强凸函数，SGD也不能实现线性收敛。

)2)可能收敛于准确度下降，因为每个样本并不代表总体趋势。

)3)局部最优

让我们来解释一下为什么SGD比BGD收敛速度快：

答：这里假设有30W个样本。对于BGD，每次迭代需要计算30W个采样并更新一次参数，如果需要获得最小值，则需要重复多次。 (一方面，在SGD的情形中，每次更新参数都仅需要一个样本，因此当利用这30W个样本来执行参数更新时，参数被更新(重复) 30W次，同时确保了SGD收敛到合适的最小值。也就是说，收敛时，BGD计算了1030W次，而SGD只计算了130W次。

从反复的次数来看，SGD反复的次数很多，在解空间的搜索过程看起来是盲目的。迭代收敛曲线的图像可以表示为：

3、小批量梯度下降(Mini-Batch Gradient Descent，MBGD )小批量梯度下降是对批量梯度下降及随机梯度下降的折中办法。其思想是在每次迭代中使用** batch_size**个样本来更新参数。不易于并行实现

)1)通过矩阵运算，即使每次在一个batch上优化神经网络参数，也不会比单个数据慢很多。

)一次batch使用可以增大优点：，同时收敛结果更接近梯度下降的效果。 (例如，在上述示例的30W中，当设置batch_size=100时，需要重复3000次，远远小于SGD的30W次)

)3)减小收敛所需要的迭代次数

可实现并行化。

)1) batch_size可能有不恰当的选择

来一些问题。

小批量的梯度下降可以利用矩阵和向量计算进行加速，还可以减少参数更新的方差，得到更稳定的收敛。在MSGD中，学习速率一般设置的比较大，随着训练不断进行，可以动态的减小学习速率，这样可以保证一开始算法收敛速度较快。实际中如果目标函数平面是局部凹面，传统的SGD往往会在此震荡，因为一个负梯度会使其指向一个陡峭的方向，目标函数的局部最优值附近会出现这种情况，导致收敛很慢，这时候需要给梯度一个动量（momentum），使其能够跳出局部最小值，继续沿着梯度下降的方向优化，使得模型更容易收敛到全局最优值

batcha_size的选择带来的影响：
（1）在合理地范围内，增大batch_size的好处：
a. 内存利用率提高了，大矩阵乘法的并行化效率提高。
b. 跑完一次 epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快。
c. 在一定范围内，一般来说 Batch_Size 越大，其确定的下降方向越准，引起训练震荡越小。
（2）盲目增大batch_size的坏处：
a. 内存利用率提高了，但是内存容量可能撑不住了。
b. 跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。
c. Batch_Size 增大到一定程度，其确定的下降方向已经基本不再变化。
下图显示了三种梯度下降算法的收敛过程：

4 梯度下降算法的调优方法（目的：加快收敛速度）

当选择好了使用BGD、SGD、MBGD其中一个梯度下降方式后，对下降梯度算法需要进行调优，那么应该从哪些方面进行调优？

4.1 学习速率(Learning Rate)α调优
在θ迭代结算公式中，其中的偏导数的系数α是学习速率（Learning Rate），且α>0。

1）固定的α，α太大的话，导致迭代次数变少(因为θ增量变大)，学习速率变快，训练快。但是α不是越大越好，如果α太大的话，会导致梯度下降算法在图形的上坡和下坡上面来回震荡计算，严重的结果可能无法收敛；

2）固定的α，α太小的话，导致迭代次数变多(因为θ增量变小)，学习速率变慢，训练慢。但是α不是越小越好，如果α太小的话，会导致梯度下降算法在图形迭代到最优点处整个过程需要训练很长时间，导致训练太慢，虽然可以取得最优θ。

3）变化的α，当梯度大的时候，学习速率变大，梯度小的时候，学习速率变小。则学习速率和梯度是一个正相关，可以提高下降算法的收敛速度。α和梯度的正相关有一个比例系数，称为Fixed Learning Rate。Fixed Learning Rate一般取0.1或者0.1附件的值，可能不是最好但是一定不会太差

4.2选取最优的初始值θ
首先，初始值θ不同，获得的代价函数的最小值也可能不同，因为每一步梯度下降求得的只是当前局部最小而已。所以需要多次进行梯度下降算法训练，每次初始值θ都不同，然后选取代价函数取得的最小值最小的那组初始值θ。

4.3特征数据归一化处理
样本不相同，特征值的取值范围也一定不同。特征值的取值范围可能会导致迭代很慢。所以就要采取措施减少特征值取值范围对迭代的影响，这个措施就是对特征数据归一化。

数据归一化方法有：1）线性归一化，2）均值归一化。一般图像处理时使用线性归一化方法，比如将灰度图像的灰度数据由[0,255]范围归一化到[0,1]范围。如果原始数据集的分布近似为正态（过时的鲜花）分布，那么可以使用均值归一化对数据集进行归一化，归一化为：均值为0，方差为1的数据集。这里面采用均值归一化，均值归一化的公式如下所示：

其中μ是原始数据集的均值，σ是原始数据的标准差，求出来的归一化数据的特点是：均值为0，方差为1的数据集。

经过特征数据归一化后，梯度下降算法会在期望值为0，标准差为1的归一化特征数据上进行迭代计算θ，这样迭代次数会大大加快