关于随机森林的随机性疑问
来源:13-5 随机森林和 Extra-Trees
lemonlxn
2020-04-29
老师好,我之前问过这个问题,但我还是有些疑惑,需要再向您请教下。
假如我这里有10000个样本,10个特征。
我想在随机森林中生成500个决策树,max_features = 4,bootstrap=True。
请问:
1.请问每颗数的样本数是一样的吗?各自每颗样本数又是多少?
2.我这里设置最大特征为4。
第一颗树,可以从这10个特征,任意挑4个特征?
如 第1、4、7、8个特征?
第二颗树,可以从这10个特征,任意挑4个特征?
如 第2、6、9、10个特征?
然后以此类推?
3.每颗决策树在每个节点的最优划分,是基于这4个特征?
4.如果随机森林进行分类任务的话,是基于少数服从多数的要求吗?那有 soft voting 的设置吗?
写回答
2回答
-
1
如果 bootstrap=True,每棵树的样本不一样。因为放回取样的意思是:抽一个样本,然后放回去重新抽,所以可能抽重。抽重的不算,造成了差距。
2
对
3
对
4
对,少数服从多数,没有 soft voting。
因为随机森林里面都是弱分类器,所以其实 soft voting 没什么意义:)
继续加油!:)
142020-10-10 -
慕妹7897946
2020-08-09
如果 bootstrap=false呢?所有子树样本数一样吧,但是样本个数是多少,就是全部样本集吗
012020-08-10
相似问题