关于交叉验证随机性
来源:8-6 验证数据集与交叉验证
lemonlxn
2023-02-14
老师好,请问下 交叉验证分成K份,是有什么规则吗?
以下图为例,训练数据分成了3份 (A、B、C),请问是根据什么规则分成3份的?
比如我有99条数据,分成3份,是否
A = 第1-33条数据
B = 第34-66条数据
C = 第67-99条数据
写回答
1回答
-
liuyubobobo
2023-02-15
对于大部分数据,随机划分即可。
但是对于一些特殊数据,尤其是某一个 label 比较小的数据(有偏的数据),应该考虑保证在每一份中,每一个 label 的比例大致一样。这样可以避免某一份中某一个 label 一个都没有的情况。
在机器学习领域,有一个专门的名词来描述这种“划分”,被称为是 Stratified Split (听起来非常高大上,但就是我上面说的那个意思,非常好理解。)sklearn 中有专门的方法实现了这种 split,可以参考这里:https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html
继续加油!:)
132023-02-15
相似问题