老师,今天问题比较多,给您添麻烦了
来源:7-6 scikit-learn中的PCA
慕运维7479159
2018-06-17
老师请问,主成分分析后,的数据在进行多项式转换,这样是否成立,因为维度过多,只能降维处理,降维后,再进行多项式,就可以简化计算维度,请问这种思路有没有问题
1回答
-
比较开放的问题了:)
虽然可以,但感觉稍微有些奇怪。因为PCA的目的是降维,或者说是压缩特征空间;多项式的目的是产生更多的特征,以避免原有特征的一些多项式组合没有被我们考虑到。再降维以后又升维,稍微有些奇怪。尤其是PCA是将原始的特征空间转移到了另外一个特征空间,对于这个新的特征空间,原始特征空间的特征“语意”将全部丢失。感觉上,在这个基础上,再多项式,意义不大。
相反的,先多项式,再PCA,感觉合理很多:)多项式的过程基于原先的特征语意,创建出了更多可能的特征的多项式组合。但这样一来,特征多了,这么多的特征,很有可能有很高的特征压缩的空间,再对这些特征使用PCA进行降维压缩,是非常合理的:)
不过依然是,我在这里都说的是“有可能”,我认为先多项式后PCA更加符合思维逻辑。但是不排除,面对某一个数据,你先使用PCA,再进行多项式,结果训练出的模型效果更好。遇到这种情况,可能更重要的是探究一下,为什么会出现这种情况,其中在这个处理过程中哪个”新“的特征发挥了重要的作用。沿着这个逻辑深入研究一下,或许会发现我们之前没有意识到的,更重要的特征:)
这也就是我在很多问答里说的,机器学习的方法并不是万能的。在很多情况下,甚至是极其无力的。机器学习只是使用统计学的手段,应用在现阶段人类还没有彻底搞明白的事物之上,去暂时进行预测分析。很多时候,机器学习的过程并不是简单的预测出那么一个结果而已。通过机器学习的过程,对数据,甚至是对问题本身,有更深刻的理解,或许在有些时候,是机器学习工程师更重要的任务呢:)
关于机器学习的使用,其实很重要的作用是更深刻的理解我们的数据和问题,也可以参考这个问答:https://coding.imooc.com/learn/questiondetail/43808.html
加油!
362020-09-23
相似问题