对于多特征少样本（特征数大于样本数）的数据采用高斯核函数是不是相当于降维？

来源：11-7 RBF核函数

慕运维2948618

2018-02-12

多项式原本是将数据升维使数据线性可分

那高斯核函数降维后会不会变成线性不可分呢？

写回答

2回答

liuyubobobo

2018-02-13

已采纳

1 可以理解成降维

2 当然可能。说的更一般一些，预测结果很差（因为soft-margin不要求线性可分）。但此时，说明：或者你的样本数据太少，需要添加样本数据；或者你的数据（或者应用场景）本身不适合使用SVM。

对于你设计的过程，确实做出了m个特征，但这m个特征是分布在怎样的一个高维空间我不确定，所以他的效果我不确定，有兴趣可以自己尝试一下：）

但是不管怎样，这个思路是和多项式核干的事情截然不同的。

多项式核的作用是挖掘特征之间的非线性关系，比如我们的数据有f1, f2, ..., fn 多个特征，那么多项式核在挖掘最终的结果和f1*f2；f3*f8*f10；f6^2等等这一类的特征之间是否有关；

你设计的方法，x*l1相当于是两个向量做点乘，然后加一做平方，让每一个样本和每一个landmark做这样的计算，考虑的还是样本和landmark之间的一种非线性关系（暂且不管这个关系到底有没有意义），而不是特征之间的非线性关系。

我们的任务不是转换成m个特征就好了，我们的任务是找到更有利我们分类任务的新的空间。

多项式核很好理解，我们之前举过例子，对于线性不可分的数据，增加多项式项，可以轻松的做到线性可分；

高斯核本质是在衡量样本和样本之间的“相似度”，在一个刻画“相似度”的空间中，让同类样本更好的聚在一起，进而线性可分。高斯核背后有很强的数学基础作支撑。并不是简单地想办法找m个特征就好了。这个课程不涉及SVM背后更多的理论知识，有兴趣可以找相关资料自学，深入理解SVM以及SVM背后的“核方法”。

liuyubobobo

慕运维2948618

可以这么理解。其实高斯核本质还是要从核函数的角度去理解，它的本质是定义了一种新的“点积”形式。我们是先定义了这种新的点积形式，进而挖掘出：这种定义相当于是将样本向“无穷维”的一种映射。而不是先找到的这种映射，再推导出的高斯核。这种映射在具体数据上的离散化表示，就是landmark这种方式。很多教材不介绍landmark这种方式，我觉得也是有道理的。

2018-02-13

共2条回复