利用最速下降法计算,最速下降法的适用范围

最速下降法作为求解无约束优化问题的入门算法，其思想是许多其他优化算法的基础。到目前为止，我对梯度下降法和最速下降法的关系和区别不是很了解。他们都只知道用一次方法，在负梯度方向反复降低目标函数值，但调查了很多资料和网络教程后，发现事情很麻烦。经过系统的学习和思考，我认为最速下降法是梯度下降法的一种。该算法与常见梯度下降的区别在于，每次迭代都要求目标函数值下降到搜索方向上的最小值。

最速下降法算法步骤

为何最速下降法相邻两次迭代的搜索方向是正交的

因此，最速下降法中相邻两次的搜索方向正交。

因此，最速下降法的搜索方向为“迂回下降”，收敛速度随着梯度值变低而变慢，在目标函数值特别接近局部最佳解的情况下，搜索有可能每次一点点移动而继续迂回。想象一下眼前就像是在很远的地方一样的QAQ。

机器学习和深度学习中学习率和算法收敛速度的理解

可见，最速下降法的关键步骤是一维搜索求解步骤，即机器学习中的学习率，其馀步骤与机器学习中的梯度下降系列算法一致。这还需要进行实验调整，以确认机器学习和深度学习中常用的随机梯度下降(SGD )、小批量梯度下降)等算法中学习率)步骤(为什么是超级参数) )是否有一定的预期。因为在神经网络计算中损失函数极其复杂，很难用一维搜索求解这个最佳学习吧(根据经验，炼丹)。 )很小的学习率，在这次迭代中目标函数值的下降并不一定最快，但无论如何都会下降，很实用。另一方面，梯度下降是盲目的，在一次迭代中，搜索方向只考虑了起点的梯度，但由于该梯度并不一定是起点和终点之间的其他点的梯度方向，因此，从整体上看，负的梯度方向并不一定是下降最快的方向，而是由根据该搜索方向确定的最佳步骤确定的阿尔从这个角度来看，“最速下降法”真的不是很有名。

因此，总的来说，算法收敛速度快，最速下降不是“最速下降”方法，一维精确搜索确定的步骤总体上也未必能使目标函数下降最快。为了得到更快的收敛速度的方法，在一般的问题中，需要考虑二次方法(Newtown法及其派生算法等)，当然在神经网络中计算Hessian矩阵的成本是无法想象的。因此，使用了动量法(Momentum )和Adam算法等一般梯度下降算法(一次法)的改进。