深度学习在很多领域都取得了巨大的成功,但是深度学习背后的基础理论却比较滞后。
其中一个重要的问题是深度学习模型的泛化。
根据经典的机器学习泛化理论,模型参数越大,模型的拟合能力越强,但泛化能力越差。
然而,在深度学习中没有观察到这种权衡现象。
通常,深度学习的模型有大量的参数,通常比训练数据多得多。根据经典概化理论,这样的模型应该是广义不良的。
在实践中,基于真实数据训练的深度学习模型通常具有良好的泛化性能。增加模型的参数不会使泛化能力变差。这种现象不能用机器学习的经典泛化理论来解释。
来自Aauto Quicker等人的拼图裙博士在2020年ICLR发表了文章《Understanding Why Neural Networks Generalize Well Through GSNR of Parameters》,提出从梯度信噪比的角度来理解这个悖论。他们认为深度学习的泛化能力与我们用来训练它的梯度下降优化方法密切相关。
AI技术评论已经发布了本文的文本解读,可参考《ICLR 2020 | 模型参数这么多,泛化能力为什么还能这么强?》。
此外,我们还特别邀请了论文之一的A百褶裙博士,与我们现场分享他们在这一领域的研究工作。
实时信息
直播话题:从梯度信噪比来理解为什么深度学习的泛化性能这么好。
直播时间:2020年4月30日(星期四)晚上20: 00
纸质信息
标题:通过参数的GSNR理解神经网络为什么能很好地推广
下载链接:https://openreview.net/forum? id=Hyevijstwh
共享背景:
泛化性能是深度学习的一个基本理论问题,传统的泛化理论难以解释深度学习的泛化性能。本文提出了一个新的视角来理解深度学习的泛化性能。
共享大纲:
1.动机:为什么深度学习的泛化性能这么好?
2.一步泛化率和梯度信噪比的定义
3.主要结论:训练过程中梯度信噪比越大,网络的泛化性能越好,实验验证了结论。