首页 > 编程知识 正文

利用最速下降法计算,最速下降法的适用范围

时间:2023-05-04 00:49:15 阅读:137033 作者:4915

最速下降法作为求解无约束优化问题的入门算法,其思想是许多其他优化算法的基础。 到目前为止,我对梯度下降法和最速下降法的关系和区别不是很了解。 他们都只知道用一次方法,在负梯度方向反复降低目标函数值,但调查了很多资料和网络教程后,发现事情很麻烦。 经过系统的学习和思考,我认为最速下降法是梯度下降法的一种。 该算法与常见梯度下降的区别在于,每次迭代都要求目标函数值下降到搜索方向上的最小值。

最速下降法算法步骤

为何最速下降法相邻两次迭代的搜索方向是正交的

因此,最速下降法中相邻两次的搜索方向正交。

因此,最速下降法的搜索方向为“迂回下降”,收敛速度随着梯度值变低而变慢,在目标函数值特别接近局部最佳解的情况下,搜索有可能每次一点点移动而继续迂回。 想象一下眼前就像是在很远的地方一样的QAQ。

机器学习和深度学习中学习率和算法收敛速度的理解

可见,最速下降法的关键步骤是一维搜索求解步骤,即机器学习中的学习率,其馀步骤与机器学习中的梯度下降系列算法一致。 这还需要进行实验调整,以确认机器学习和深度学习中常用的随机梯度下降(SGD )、小批量梯度下降)等算法中学习率)步骤(为什么是超级参数) )是否有一定的预期。 因为在神经网络计算中损失函数极其复杂,很难用一维搜索求解这个最佳学习吧(根据经验,炼丹)。 )很小的学习率,在这次迭代中目标函数值的下降并不一定最快,但无论如何都会下降,很实用。 另一方面,梯度下降是盲目的,在一次迭代中,搜索方向只考虑了起点的梯度,但由于该梯度并不一定是起点和终点之间的其他点的梯度方向,因此,从整体上看,负的梯度方向并不一定是下降最快的方向,而是由根据该搜索方向确定的最佳步骤确定的阿尔从这个角度来看,“最速下降法”真的不是很有名。

因此,总的来说,算法收敛速度快,最速下降不是“最速下降”方法,一维精确搜索确定的步骤总体上也未必能使目标函数下降最快。 为了得到更快的收敛速度的方法,在一般的问题中,需要考虑二次方法(Newtown法及其派生算法等),当然在神经网络中计算Hessian矩阵的成本是无法想象的。 因此,使用了动量法(Momentum )和Adam算法等一般梯度下降算法(一次法)的改进。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。