老师 8-6 6:59 处没有太理解极端数据时什么意思?

来源:8-6 验证数据集与交叉验证

神经旷野舞者

2018-03-06

老师视频里讲,由于我们每一次的验证数据集都是随机地从原来数据集中切分出来的,通过之前的分析也能看出来,我们训练出来的模型可能过拟合这个验证数据集,但是我们只有一份验证数据集,一旦这一份验证数据集里有比较极端的数据,就会导致我们的相应的模型不准确,为了解决这个问题,我们有了交叉验证这个方法。

 

为什么有极端数据会导致我们的模型不准确,是说有极端的数据正好使得模型过拟合这个验证数据集(但是不是有测试数据集防止过拟合吗?),还是说有极端异常数据使得模型没办法拟合呢?


写回答

2回答

ianzhang

2018-03-06

我的理解,验证数据是应该用于给模型调参,如果验证数据中的存在极端数据会造成模型过拟合。测试数据只用于模型最终打分情况,作为衡量模型好坏的一个标准,不参与模型调参,对模型没有修正作用。

2
2
liuyubobobo
回复
神经旷野舞者
模型打分就是对模型作出评价。准确率,R^2,RMSE等都是。
2018-03-07
共2条回复

liuyubobobo

2018-03-07

这里的极端数据是指:模型过拟合了验证数据集,但是测试数据集中的数据正好没有检测出来这种情况。这是因为测试数据集只是全部数据集的一部分,此时,依然是:选择哪些数据作为测试数据集,就有偶然情况的影响。


可以再回顾一下交叉验证的思路:数据集中的每一份数据都将参与测试,相应最终的测试结果也会准确很多。

0
2
liuyubobobo
回复
神经旷野舞者
测试数据集越小,碰到的可能性越大。极端情况,你的测试数据集只有一个样本,这个样本预测成功了,你的算法在测试数据集上的表现就是100%正确。但是这个100%正确显然是不可信的。
2018-03-07
共2条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5893 学习 · 2454 问题

查看课程