如何理解“信息熵不能减的太快”?
来源:12-3 使用信息熵寻找最优划分
MMXDH
2018-08-26
bobo老师好,构建决策树的时候,我们希望信息熵能取到最小值,言外之意就是让信息熵快速下降呀,那“信息熵不能减的太快,否则容易过拟合”这句话怎么理解呢,谢谢!
1回答
-
我不确定你的说法是从哪里来的。决策树创建的过程就是每次选取让信息熵去最小的划分点进行划分;这就是让信息熵下降最快的划分点。
但是,使用决策树一定要注意:如果不进行任何约束,对于任意数据来说,不管他有多复杂,多奇怪,我们都能创建一棵决策树,使得其叶子节点的信息熵为0!即每一个叶子节点,只包含一种样本。所以决策树是一种非常容易过拟合的模型。所以我们有诸多诸如:max_depth, min_samples_split, min_samples_leaf, max_features等等一系列参数来约束决策树,让其尽量不要过拟合。
注意,对于上述的一些约束,会让决策树每次划分不是在信息熵下降最快的地方划分,比如max_features规定了每次划分索要看的特征数量。由于不是看所有的特征,所以不能保证每次一定是在信息熵下降最快的地方划分。
实际上,在机器学习领域,决策树最大的作用根本不是单独使用。很少见到一组真实数据可以靠使用决策树就能得到很好的结果。如果是这样的话,说明这个数据结构化程度非常高,也完全可以不使用机器学习来预测了。
决策树更大的作用是组建诸如随机森林这样的集成学习模型。在随机森林中,我们不希望决策树分类结果太精准。随机森林的核心就是集成“弱分类器”来抗击过拟合。所以,随机森林用尽一切手段,保证其内部的决策树是“弱分类器”,比如随机取样,比如随机选取特征。甚至在随机森林的加强版本ExtraTree(印象里课程中有提及)中,连分割的阈值都是随机的,也是为了这个原因:)
所以,我估计,你的这个说法,是针对用于随机森林中的决策树来说的吧:)
加油!:)
20
相似问题