时间:2023-05-03 23:19:39 阅读:264538 作者:4173
g不变
η随着t的增加而减少
σ是之前梯度的均方根
如果我们把 视为学习率的话,那么学习率会很快降到一个很小的值,之后会很慢收敛了。
版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。