平衡数据集对构建模型的影响
来源:10-2 精准率和召回率
慕雪9580269
2020-06-27
波波老师好
我最近构建利用平衡数据集构建了一个机器学习算法,而后采用独立数据集验证模型的性能,我发现一个问题,若独立数据集也是平衡的,则算法性能较好,若独立数据集非平衡,也算法结果特别差。这可能是什么原因造成的?
谢谢波波老师。
写回答
2回答
-
目测对于非平衡的独立数据集,数据量大的那个分类的出错率比较高,所以导致同样的模型,如果数据集非平衡,有巨大的正确率变化。
实际用你的数据观察一下是不是如此?
如果是如此,说明你的训练数据对于其中一个分类结果不够好,最直接的方式是想办法获得这个分类的更优的数据最训练。
继续加油!:)
00 -
慕雪9580269
提问者
2020-06-28
波波老师,我没太理解,那我碰到这种问题应该怎么办?本来用来训练的数据集就是平衡数据集,我无法预测将来的独立数据集是平衡的,还是非平衡的?
012020-06-28
相似问题
模型过拟合验证数据集
回答 1
关于分割数据集的随机问题
回答 1