关于剔除离群值

来源:3-5 编码实现(基于python2.7)

迷途20191129

2020-12-10

老师您好:
我想请问对于使用四分卫数的方式剔除离群值,需要对每个feature都做剔除离群值的操作吗?
PS:我问这个问题的原因是今日在Kaggle上看到一个大神在剔除离群值的时候先计算各个feature和label之间的相关系数,取高度负相关的前几个feature做四分卫的离群值剔除,并没有对所有feature都剔除离群值。
所以我想请教一下实际开发中剔除离群值的原则是什么呢?

写回答

1回答

途索

2020-12-16

同学你好,这个需要看业务形态,因为四分位去掉异常值,实际上也去掉了一部分样本,这个过程中可能会有信息失真。有很多模型(如树形模型)对这些所谓的异常值有兼容的方案。所以,四分位去异常值不一定要用。
你提到的是先特征选择,再去掉异常,还是反过来,我觉得需要考虑具体场景和方法,因为如果有特别离群的点,计算相关性(如用pearson相关系数)时,这些离群点会对相关结果有比较大的影响,但如果用spearman这类对具体数字不敏感的方法,影响就不大,就可以先选择特征,再计算离群值。

0
1
迷途20191129
非常感谢!
2020-12-16
共1条回复

Python3数据分析与挖掘建模实战,快速胜任数据分析师

快速胜任数据分析岗位,逆袭成为数据掘金时代的抢手人才!

2204 学习 · 489 问题

查看课程