对于多特征少样本(特征数大于样本数)的数据采用高斯核函数是不是相当于降维?

来源:11-7 RBF核函数

慕运维2948618

2018-02-12

多项式原本是将数据升维使数据线性可分

那高斯核函数降维后会不会变成线性不可分呢?

写回答

2回答

liuyubobobo

2018-02-13

1 可以理解成降维

2 当然可能。说的更一般一些,预测结果很差(因为soft-margin不要求线性可分)。但此时,说明:或者你的样本数据太少,需要添加样本数据;或者你的数据(或者应用场景)本身不适合使用SVM。


对于你设计的过程,确实做出了m个特征,但这m个特征是分布在怎样的一个高维空间我不确定,所以他的效果我不确定,有兴趣可以自己尝试一下:)


但是不管怎样,这个思路是和多项式核干的事情截然不同的。

多项式核的作用是挖掘特征之间的非线性关系,比如我们的数据有f1, f2, ..., fn 多个特征,那么多项式核在挖掘最终的结果和f1*f2;f3*f8*f10;f6^2等等这一类的特征之间是否有关;

你设计的方法,x*l1相当于是两个向量做点乘,然后加一做平方,让每一个样本和每一个landmark做这样的计算,考虑的还是样本和landmark之间的一种非线性关系(暂且不管这个关系到底有没有意义),而不是特征之间的非线性关系。


我们的任务不是转换成m个特征就好了,我们的任务是找到更有利我们分类任务的新的空间。

多项式核很好理解,我们之前举过例子,对于线性不可分的数据,增加多项式项,可以轻松的做到线性可分;

高斯核本质是在衡量样本和样本之间的“相似度”,在一个刻画“相似度”的空间中,让同类样本更好的聚在一起,进而线性可分。高斯核背后有很强的数学基础作支撑。并不是简单地想办法找m个特征就好了。这个课程不涉及SVM背后更多的理论知识,有兴趣可以找相关资料自学,深入理解SVM以及SVM背后的“核方法”。

1
2
liuyubobobo
回复
慕运维2948618
可以这么理解。其实高斯核本质还是要从核函数的角度去理解,它的本质是定义了一种新的“点积”形式。我们是先定义了这种新的点积形式,进而挖掘出:这种定义相当于是将样本向“无穷维”的一种映射。而不是先找到的这种映射,再推导出的高斯核。这种映射在具体数据上的离散化表示,就是landmark这种方式。很多教材不介绍landmark这种方式,我觉得也是有道理的。
2018-02-13
共2条回复

慕运维2948618

提问者

2018-02-12

还有一个问题,那就是对于高斯核函数一个样本就是一个landmark,那对于多项式核函数不也可以这么去看?比如我任取两个样本,记为l1和l2,那不是可以这样,(x*l1 + 1)^2求出第一个特征,(x*l2 + 1)^2求出第二个特征。那一共有m个样本,那无论怎样最后此不是都是m个特征了?

0
0

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5893 学习 · 2454 问题

查看课程