特征如何选择
来源:7-4 求数据的前n个主成分

weixin_慕的地1189639
2021-12-11
如果有很多个特征,比如20个,怎么做关键特征选择?还是通过主成分分析直接进行降维后训练模型?
1回答
-
liuyubobobo
2021-12-11
首先,厘清一个概念。特征选择和降维不一样。
PCA 是降维,降维以后的各个维度已经失去了原先的语义。如果对特征的语义没有要求,使用 PCA 是可以的。但并不能保证 PCA 效果就是最好的。实际上,PCA 是最简单的降维方法,但不是唯一的降维方法。根据数据的不同,应用的不同,你的应用场景可能在不同的降维方式中,才有更好的效果。网上有很多不同的降维方法的总结,比如这里:https://zhuanlan.zhihu.com/p/62470700
特征选择是指,从若干特征中,扔掉一部分特征,只看其中的一部分特征。(很好理解)。
怎么做特征选择?和降维一样,没有一定之规。最常见的特征选择方式包括:
1)通过线性回归,看各个特征和结果之间的系数大小,绝对值越大越重要;
2)和 1)类似,但可以使用统计的手段,看各个特征和结果 y 之间的不同的统计量,(或者显著系数),以此来决定哪些特征更重要。(这实际上是统计学的经典研究范畴。)
3)一些算法可以用于特征选择,比如这个课程介绍的 LASSO。
4)不同的领域有不同领域专门的关于特征的研究。(比如医学领域,不同的疾病和不同的指标之间的关系)其实本质上,特征选择本身就是高度领域相关的。
不管是降维算法,还是特征选择,都是特征工程的一部分。这个课程专注于对机器学习算法的学习。等你将这些机器学习算法都掌握了,会使用了,是的,你就会发现,特征工程本身,是做大多数机器学习应用的更重要的一部分内容。
更多和特征工程相关的讨论,可以参考这里:https://coding.imooc.com/learn/questiondetail/ZEgyveP0ABBYBk7V.html
继续加油!:)
00
相似问题