关于随机森林的随机性疑问

来源:13-5 随机森林和 Extra-Trees

lemonlxn

2020-04-29

老师好,我之前问过这个问题,但我还是有些疑惑,需要再向您请教下。

假如我这里有10000个样本,10个特征。
我想在随机森林中生成500个决策树,max_features = 4,bootstrap=True。

请问:
1.请问每颗数的样本数是一样的吗?各自每颗样本数又是多少?
2.我这里设置最大特征为4。
第一颗树,可以从这10个特征,任意挑4个特征?
如 第1、4、7、8个特征?
第二颗树,可以从这10个特征,任意挑4个特征?
如 第2、6、9、10个特征?
然后以此类推?
3.每颗决策树在每个节点的最优划分,是基于这4个特征?
4.如果随机森林进行分类任务的话,是基于少数服从多数的要求吗?那有 soft voting 的设置吗?

写回答

2回答

liuyubobobo

2020-04-29

如果 bootstrap=True,每棵树的样本不一样。因为放回取样的意思是:抽一个样本,然后放回去重新抽,所以可能抽重。抽重的不算,造成了差距。




对,少数服从多数,没有 soft voting。

因为随机森林里面都是弱分类器,所以其实 soft voting 没什么意义:)


继续加油!:)

1
4
lemonlxn
回复
liuyubobobo
谢谢大佬
2020-10-10
共4条回复

慕妹7897946

2020-08-09

如果 bootstrap=false呢?所有子树样本数一样吧,但是样本个数是多少,就是全部样本集吗

0
1
liuyubobobo
是的。
2020-08-10
共1条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5838 学习 · 2437 问题

查看课程