13万样本40个变量,90%的变量缺失值在48%以上,请问怎么办?

来源:9-7 scikit-learn中的逻辑回归

weixin_慕莱坞0510968

2021-10-03


如题,其中因变量为1/0变量,等于1的有4万条。

有同事建议选某个变量不为空的行数,选完还剩7万条,此时各变量的缺失率就都在20%以下了。请问这样合理吗?被删除的6万行里也有1万条因变量为1的。

请问这个数据应该怎么办?

写回答

1回答

liuyubobobo

2021-10-08

0
0

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5893 学习 · 2454 问题

查看课程