对于特征数远远大于样本数的数据,高斯核是否相当于降维?

来源:11-7 RBF核函数

weixin_慕数据9110392

2020-08-26

对于特征数远远大于样本数的数据,高斯核是否相当于降维?如果是,这种降维是否类似于PCA的降维,可以解决共线性的问题呢?谢谢bobo老师

写回答

1回答

liuyubobobo

2020-08-27

1

不能将高斯核理解成降维,高斯核本质还是将数据映射到了无穷维,可以参考这里的讨论:http://coding.imooc.com/learn/questiondetail/146193.html


2

高斯核不能和 PCA 相提并论。除了高斯核的本质并不是降维之外,二者之间最大的本质区别是:PCA 是线性的,高斯核是非线性的。


3

如果处理特征数远大于样本数的情况,核心还是要做预处理。或者在数据预处理阶段,对数据进行降维,特征选择,等等方式,让数据的维度降下来;或者增加数据量,让样本数升上去;或者二者兼有。完全靠算法本身处理这个问题并不靠谱。依然是,数据预处理是时间机器学习过程中非常重要的一步。


4

你说的共线性问题,从道理上,解决方案也应该在数据预处理上,应该尽量在数据预处理中,找到共线性的特征,将他们尽量剔除,而不是指望算法能够自动识别。不过我一般处理数据很少去看共线性问题,我老婆做一些工作需要做统计分析对此比较敏感。但机器学习很多时候只关注最终预测结果的准确率,而不去看相关,显著这些统计指标,所以可能并不 care 共线性,可以根据自己实际的需求做取舍。


继续加油!:)

2
0

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5893 学习 · 2454 问题

查看课程