决策树解决回归问题的原理
来源:12-6 决策树解决回归问题
小红果的爸爸
2019-08-02
bobo老师,决策树在解决分类问题时,通过遍历dim和value找到分裂的两组数据的最优信息熵值,信息熵是根据各个类别的比例计算出来的;但是如果是回归问题,每个样本的y值是个连续的数值,这个怎么计算信息熵呢,如何去确定那个最优的分裂呢
写回答
2回答
-
也有很多标准。原始的决策树论文的标准,也是最经典的标准,是最小化SSE(sum of squares error)
式子是这样的:
其实很好理解,就是划分成两部分以后,这两部分的的误差平方和(每个结果减均值的平方)最小。
继续加油!:)
00 -
慕圣6380070禅达
2020-03-03
对于回归树,衡量分类标准的是样本方差,分裂方法与回归树类似,只是把熵函数改成方差函数
E(D) = sum(y.hat - y.average)**2 / m
00
相似问题