notebook.community
Edit and run
机器学习的目标是获得泛化能力强的模型,泛化能力用泛化误差(在实际应用场景中的误差)来度量,而泛化误差是用测试误差(测试集上的误差)来估计的.模型学习的过程一般是最小化训练误差.训练误差一般小于测试误差.
所以好的模型具有以下特点:
第一点做不到,也就是训练误差大,称为欠拟合;第二点做不到,也就是测试误差远大于训练误差,称为过拟合.
欠拟合一般是因为
欠拟合比较好识别,从定义出发,当训练误差比较大时,就是欠拟合了.
面对欠拟合时,思路大体上分为
使用ensemble方法来提高泛化水平的能力
过拟合的原因一般有:
要识别过拟合可以通过以下指标:
学习曲线是个很好的工具.学习曲线表现了不同样本量下的训练误差和测试误差.
处理过拟合大体上有这么几种思路:
使用投票,bagging通过组合几个基础分类器的结果投票实现提高泛化水平的能力