特征选择及特征处理顺序

来源:5-13 HR表的特征预处理-1

weixin_慕标4240177

2020-04-14

老师好: 1,这里特征选择部分是否指用PCA LDA等合适的方式对数据降维。 2,这里是先做特征选择,在做特征处理(归一化、编码等),那一般顺序也是如此吗? 3.如果特征未经处理(比如存在低中高这种非数值),对特征选择的影响是什么? 谢谢

写回答

1回答

途索

2020-04-22

同学你好,接下来对你的问题一一解答:
1,这里特征选择部分是否指用PCA LDA等合适的方式对数据降维。
pca和lda都是线性降维,主要目的还是为了缩减特征维度。如果特征本身比较少,降维可以不使用。对监督学习来说,很多时候,在很多模型里降维对最终的指标结果影响不是很大,但会影响计算效率;而非监督学习则建议多尝试,说不准会有意外收获。
2,这里是先做特征选择,在做特征处理(归一化、编码等),那一般顺序也是如此吗?
顺序没有一个确定规则,但大多数情况是先选择特征,再处理。但也有可能在处理后,有了新特征,再接着选。是个迭代的过程。
3.如果特征未经处理(比如存在低中高这种非数值),对特征选择的影响是什么?
没有处理的特征会加大特征选择的难度,比如a特征分布是0到10000,b特征分布是0到1,因为a特征分布广,所以看起来更重要,但如果归一化后,可以在同样范围的尺度评价他们对结果的影响究竟多大。更客观一些。

1
0

Python3数据分析与挖掘建模实战,快速胜任数据分析师

快速胜任数据分析岗位,逆袭成为数据掘金时代的抢手人才!

2204 学习 · 489 问题

查看课程