老师 8-6 6:59 处没有太理解极端数据时什么意思?
来源:8-6 验证数据集与交叉验证

神经旷野舞者
2018-03-06
老师视频里讲,由于我们每一次的验证数据集都是随机地从原来数据集中切分出来的,通过之前的分析也能看出来,我们训练出来的模型可能过拟合这个验证数据集,但是我们只有一份验证数据集,一旦这一份验证数据集里有比较极端的数据,就会导致我们的相应的模型不准确,为了解决这个问题,我们有了交叉验证这个方法。
为什么有极端数据会导致我们的模型不准确,是说有极端的数据正好使得模型过拟合这个验证数据集(但是不是有测试数据集防止过拟合吗?),还是说有极端异常数据使得模型没办法拟合呢?
写回答
2回答
-
ianzhang
2018-03-06
我的理解,验证数据是应该用于给模型调参,如果验证数据中的存在极端数据会造成模型过拟合。测试数据只用于模型最终打分情况,作为衡量模型好坏的一个标准,不参与模型调参,对模型没有修正作用。
222018-03-07 -
liuyubobobo
2018-03-07
这里的极端数据是指:模型过拟合了验证数据集,但是测试数据集中的数据正好没有检测出来这种情况。这是因为测试数据集只是全部数据集的一部分,此时,依然是:选择哪些数据作为测试数据集,就有偶然情况的影响。
可以再回顾一下交叉验证的思路:数据集中的每一份数据都将参与测试,相应最终的测试结果也会准确很多。
022018-03-07
相似问题