请问老师,结合上节课的投票角度,为什么在soft中只选用决策树一种算法进行训练得到子模型,而不是采用多种算法也训练多个子模型呢?

来源:13-3 Bagging 和 Pasting

慕仙5376180

2019-08-18

写回答

1回答

liuyubobobo

2019-08-18

其实可以。


但当我们要创建成百上千个“弱分类器”的时候,决策树是最好的完成这个目标的模型。因为决策树中可供选择的超参数更多,很容易通过调整参数,得到另外一个“弱分类器”。而且,这些弱分类器是非线性的。这使得每一个子模型更有可能考虑的是样本的不同的侧面,产生更大的差异化。而且他线性算法,(比如SVM或者逻辑回归)都是基于线性假设,即使看到的样本不同,最终集成的结果依然基本是线性的。


所以,使用决策树是最好的选择。正因为如此,有随机森林这样的一个专门的算法,其实就是基于决策树的 bagging 或者 pasting 而已。


继续加油!:)


2
4
liuyubobobo
回复
Howiedu
如果你说的是指在 Voting 中使用一个随机森林,当然可以。如果在 Voting 中使用多个随机森林,肯定也可以,但意义不大。因为随机森林和随机森林之间不会有太大的差异。 可不可以理解成随机森林>=决策树=逻辑回归、kNN等算法?这里看你比较的是什么了。但是整体,随机森林确实是最容易在复杂的数据上获得好的结果。决策树肯定是最差的。kNN 其实很多时候效果很好,但是做一个 predict 太慢了,所以不实用。逻辑回归不一定效果很差,有的时候也会有不错的效果,不能一概而论。
2022-08-11
共4条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5850 学习 · 2437 问题

查看课程