数据是否线性问题
来源:8-4 实战基于SVM的分类
宝慕林0293857
2018-11-06
老师在课程说svm训练线性可分数据效果好,非线性不好,那应该怎么判断数据是否线性?
写回答
1回答
-
这个问题问得很高,衡量数据是否是线性的,最简单的办法可以将数据可视化,如果可视化之后的数据我们用肉眼直观的看,两边的数据可以很容易地在中间通过一个直线(对三维数据就是平面)进行分开,那么这个数据就是线性可分的。例如下面这两张图中的样本就是线性可分的:


对比小面这个图,就可以看到什么是线性不可分:
我们看到这个图中的样本点无法通过一条直线完全分成两个部分,就是线性不可分,在svm中使用核函数进行特征转换,就可以将输入数据的特征空间转换成线性可分的了,然后再用svm就ok了,但是Spark当前版本不支持核函数,这是因为核函数通过并行化的编程方式不好实现的原因,因此,在工程场景,可以将数据集先用核函数预处理之后入库,再通过spark进行训练10
相似问题


