数据是否线性问题

来源:8-4 实战基于SVM的分类

宝慕林0293857

2018-11-06

老师在课程说svm训练线性可分数据效果好,非线性不好,那应该怎么判断数据是否线性?

写回答

1回答

Wotchin

2018-11-06

这个问题问得很高,衡量数据是否是线性的,最简单的办法可以将数据可视化,如果可视化之后的数据我们用肉眼直观的看,两边的数据可以很容易地在中间通过一个直线(对三维数据就是平面)进行分开,那么这个数据就是线性可分的。例如下面这两张图中的样本就是线性可分的:

//img.mukewang.com/szimg/5be0e5090001977205500422.jpg

//img.mukewang.com/szimg/5be0e53000016fe709480754.jpg
对比小面这个图,就可以看到什么是线性不可分:

//img.mukewang.com/szimg/5be0e5550001aaba05000373.jpg
我们看到这个图中的样本点无法通过一条直线完全分成两个部分,就是线性不可分,在svm中使用核函数进行特征转换,就可以将输入数据的特征空间转换成线性可分的了,然后再用svm就ok了,但是Spark当前版本不支持核函数,这是因为核函数通过并行化的编程方式不好实现的原因,因此,在工程场景,可以将数据集先用核函数预处理之后入库,再通过spark进行训练

1
0

掌握Spark机器学习库 大数据开发技能更进一步

案例+原理+代码 提升大数据处理能力

476 学习 · 81 问题

查看课程