关于交叉验证随机性

来源:8-6 验证数据集与交叉验证

lemonlxn

2023-02-14

老师好,请问下 交叉验证分成K份,是有什么规则吗?
以下图为例,训练数据分成了3份 (A、B、C),请问是根据什么规则分成3份的?

比如我有99条数据,分成3份,是否
A = 第1-33条数据
B = 第34-66条数据
C = 第67-99条数据
图片描述

写回答

1回答

liuyubobobo

2023-02-15

对于大部分数据,随机划分即可。


但是对于一些特殊数据,尤其是某一个 label 比较小的数据(有偏的数据),应该考虑保证在每一份中,每一个 label 的比例大致一样。这样可以避免某一份中某一个 label 一个都没有的情况。


在机器学习领域,有一个专门的名词来描述这种“划分”,被称为是 Stratified Split (听起来非常高大上,但就是我上面说的那个意思,非常好理解。)sklearn 中有专门的方法实现了这种 split,可以参考这里:https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html


继续加油!:)

1
3
liuyubobobo
回复
lemonlxn
大赞!感谢分享:)
2023-02-15
共3条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5839 学习 · 2437 问题

查看课程