首页 > 编程知识 正文

机器学习算法工程师,吴恩达机器学习笔记

时间:2023-05-03 23:19:39 阅读:264538 作者:4173

1 学习率的大小 

 2 Adagrad 2.1 Adagrad结论

 2.2 Adagrad推导

 g不变

η随着t的增加而减少

σ是之前梯度的均方根

 

 3 Adagrad的缺点

如果我们把 视为学习率的话,那么学习率会很快降到一个很小的值,之后会很慢收敛了。

 

 

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。