自闭症康复网,内容丰富有趣,生活中的好帮手!
自闭症康复网 > 机器学习基础2:泛化能力

机器学习基础2:泛化能力

时间:2018-05-02 03:05:50

相关推荐

机器学习的一个重要目标是提高模型的泛化能力,即在之前未观测到的输入上的推理能力。我们在进行机器学习模型训练时,按照7:1:2比例将输入数据划分为训练集、验证集和测试集,假设不同数据集是相互独立的,且是同分布的。训练集,用于训练普参,在超参固定时,寻找最优普参,使得模型最优。验证集,用于寻找最优超参,使得模型最优。测试集,用于测试模型的泛化能力,该阶段既不调整普参,也不调整超参。在训练集上的误差称之为训练误差,在测试集上的误差称之为测试误差,通常而言,我们使用测试误差来评估模型的泛化误差,所以,我们使用训练误差来训练模型,但是我们更关注测试误差。

一、泛化问题

进行模型训练时,容易发生欠拟合和过拟合问题。

含义:欠拟合是指模型没有学习到数据特征,不能很好地拟合数据,预测结果不准,属于营养不足。过拟合是指模型不仅学习到了数据特征,还学习到了噪声特征,预测结果有偏差,属于营养过剩。

原因:模型的容量是指拟合各种函数的能力。容量低的模型可能很难拟合训练集,不能解决复杂的任务,容易发生欠拟合问题。容量高的模型能够解决复杂的任务,但是其容量高于任务时,可能会发生过拟合问题。当模型的容量适合于执行任务的复杂度和所提供数据的数量时,模型效果最佳。

判断:两个因素会决定机器学习模型的效果:一是减小训练误差;二是缩小训练误差和测试误差的差距。当训练误差较高时,容易发生欠拟合问题。当训练误差和测试误差较大时,容易发生过拟合问题。

举例:下图展示了欠拟合、拟合、过拟合三种场景,左图中使用一个线性函数拟合数据,会导致欠拟合。中图中使用二次函数拟合数据,泛化能力很好。右图中使用一个9阶多项式拟合数据,会导致过拟合。

如果觉得《机器学习基础2:泛化能力》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。