决策树解决回归问题的原理

来源:12-6 决策树解决回归问题

小红果的爸爸

2019-08-02

bobo老师,决策树在解决分类问题时,通过遍历dim和value找到分裂的两组数据的最优信息熵值,信息熵是根据各个类别的比例计算出来的;但是如果是回归问题,每个样本的y值是个连续的数值,这个怎么计算信息熵呢,如何去确定那个最优的分裂呢

写回答

2回答

liuyubobobo

2019-08-03

也有很多标准。原始的决策树论文的标准,也是最经典的标准,是最小化SSE(sum of squares error)


式子是这样的:

//img.mukewang.com/szimg/5d447b2e097565f005180075.jpg


其实很好理解,就是划分成两部分以后,这两部分的的误差平方和(每个结果减均值的平方)最小。


继续加油!:)

0
0

慕圣6380070禅达

2020-03-03

对于回归树,衡量分类标准的是样本方差,分裂方法与回归树类似,只是把熵函数改成方差函数

E(D) = sum(y.hat - y.average)**2 / m

0
0

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5839 学习 · 2437 问题

查看课程