老师好,请问决策树的规则怎么提取出来?我看视频只介绍了怎么应用,但实际中往往需要知道具体的规则。

来源:6-5 分类-决策树

慕函数6118739

2018-09-18

写回答

1回答

途索

2018-09-18

这么解释这个事:
1、不管是用熵也好,熵增益也好,Gini系数也好,当前的决策树其切分方法确定了,就不会再变动了,不会出现在一棵树里出现两种切分方法的情况;
2、实际上进行的切分细节,是轮番尝试取最优。举个例子,比如,对于已经有了正负标注的样本,有十个特征,我们先取第一个特征,对这个特征进行区分,可以分成两堆数据【如果是连续值,判定时可以认为大于某个数为正(负)样本,小于这个数为负(正)样本;数据是离散值可以先连续化,或者One-Hot处理】,假设我们选定了熵的判定方法,那么此时,我们可以根据课程里的内容计算分类前和分类后熵的减少量;然后,我们对第二个特征用同样的方法,同样得到一个熵的减少量,以此类推,我们可以得到十个特征分别切分时熵的减少量。我们选这十个减少量的最大值,也就是熵减少最多时的特征,作为这堆数据的分类划分。这样,我们就分成了两部分数据,对这两部分数据再分别应用以上同样的方法,最终的切分熵为0,或者满足停止条件。整个过程就结束了。

1
0

Python3数据分析与挖掘建模实战,快速胜任数据分析师

快速胜任数据分析岗位,逆袭成为数据掘金时代的抢手人才!

2204 学习 · 489 问题

查看课程