交叉验证

来源:8-6 验证数据集与交叉验证

樟子松

2021-06-25

bobo老师好:
问题:这节的视频课程中,您提到,“在交叉验证方法中,通常不会过拟合某一组的验证数据集,Best_Score是平均值,会稍微低一些”。
这句话,前半句,学生存在疑问。交叉验证,Best_Score,取的是平均值,比train_test_split分离出来的测试数据集单独得到的Best_Score,稍微小一些,没有问题。但是,在交叉验证方法中,通常不会过拟合某一组的验证数据集,学生觉得,老师您向表达的意思,是否,是在交叉验证中,最后得到的最好的一组超参数的那次交叉验证的各个验证数据集得到Score,没有过拟合的情况。而再没有得到最优超参数组合的其他超参数组合的交叉验证的验证数据集,是存在过拟合的现象的。

写回答

1回答

liuyubobobo

2021-06-25

我想表达的这样的:


因为交叉验证要针对 k 组验证数据做计算。所以,如果结果过拟合了这  k 组验证数据中的某一组,因为过拟合是只针对这组数据非常好,而不能泛化,那么它在其他 k - 1 组验证数据中的表现就会相对较差,这样一平均,得到的平均结果不会太好。所以,只是过拟合某一组验证数据集的结果,是会被交叉验证剔除的。


继续加油!:)

1
1
樟子松
谢谢,波波老师的回复。
2021-07-03
共1条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5893 学习 · 2454 问题

查看课程