首页 > 编程知识 正文

抑制过拟合的方法,如何判断模型是否过拟合

时间:2023-05-06 03:57:52 阅读:58326 作者:2081

点击上方,选择星标,每天送干货!

|来自机器心灵作者|Mahitha

链接| https://mahi thas.medium.com/over fitting-identify-and-resolve-df 3e3FDD 2860

正如hxdlm所说:“近似正确胜于正确错误。 " "

在机器学习中,“过拟合”(overfitting )会恶化模型的预测性能。 通常发生在模型太复杂(例如参数太多)时。 本文综述了过拟合及其解决方法。

在机器学习中,如果模型过于集中于特定的训练数据而错过要点,该模型将被视为拟合。 该模型提供的答案与正确答案相差甚远,即正确率下降。 这种模型将无关数据中的噪声视为信号,对精度产生不良影响。 模型训练充分、损失少,也无济于事,在新数据中性能较差。 拟合不足是指模型没有捕获数据的逻辑。 因此,拟合不足模型具有较低的精度和较高的损耗。

如何确定模型是否过拟合?

在构建模型时,数据分为三类:培训集、验证集和测试集。 训练数据用于训练模型;验证集用于测试在每个步骤中构建的模型;测试集用于最终评估模型。 通常,数据以80:10:10或70:20:10的比率分配。

在建立模型的过程中,利用验证数据对每个epoch中当前建立的模型进行测试,得到模型的丢失和正确率以及每个epoch的验证丢失和正确率。 模型构建完成后,使用测试数据测试模型以获得准确率。 如果拟合率和验证精度存在较大差异,则表明模型已拟合。

如果验证集和测试集都损失较高,则表明模型不匹配。

如何防止过拟合

交叉验证

交叉检查是防止过拟合的好方法。 交叉验证生成多个训练测试分区(splits )并调整模型。 K-折叠验证是将数据分成k个子集,并在其中一个子集上进行验证,而其他子集是用于训练算法的标准交叉验证方法。

交叉检查允许您调整超级参数,这是所有值的平均值。 这种方法计算成本高,但很少浪费数据。 交叉检查步骤请参照下图。

用更多数据进行训练

使用更多相关数据训练模型有助于更好地识别信号以及不将噪声作为信号。 数据增强是增加训练数据的一种方法,可以通过翻转、平移、旋转、缩放、亮度变更等方法实现。

移除特征

移除特征可降低模型的复杂性,在一定程度上避免噪声,使模型更有效率。 为了降低复杂性,可以通过删除层或减少神经元数量来减小网络。

早停

反复训练模型时,可以测量每次反复的性能。 一旦验证损失开始增加,就应该停止模型训练以防止过度拟合。

下图显示了何时停止培训模型。

正则化

规范化可用于降低模型的复杂性。 这通过罚损函数完成,采用L1和L2两种方法完成,数学方程如下:

L1惩罚的目的是优化权重绝对值的总和。 这产生了一个简单、可解释的模型,对异常值具有鲁棒性。

L2罚分权重的平方和。 该模型可以学习复杂的数据模式,但对异常值没有鲁棒性。

这两种规范化方法都有助于解决拟合问题,读者可以根据需要选择使用。

Dropout

Dropout是一种随机禁用神经网络单元的归一化方法。 可以在隐藏层或输入层实现,但不能在输出层实现。 这种方法可以消除对其他神经元的依赖,使网络学习独立。 该方法可以降低网络密度,如下图所示。

总结

拟合是一个需要解决的问题,因为它不能有效地使用现有数据。 有时,在构建模型之前,您可能会预期会发生拟合。 通过查看数据、收集数据的方式、采样方式、错误假设、错误表现,可以发现拟合的前兆。 为了避免这种情况,请在建模之前检查数据。 但是,预处理过程中可能检测不到拟合,在建立模型后才能检测到。 我们可以用上述方法解决拟合问题。

ext-align: left">原文链接:https://mahithas.medium.com/overfitting-identify-and-resolve-df3e3fdd2860

说个正事哈由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:(1)点击页面最上方“深度学习自然语言处理”,进入公众号主页。(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。感谢支持,比心。投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。记得备注呦推荐两个专辑给大家:专辑 | 漂亮的蜗牛人类语言处理2020笔记专辑 | NLP论文解读专辑 | 情感分析整理不易,还望给个在看!

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。