bobo老师, 这里的37%和次数都无关的吗? 500次还有37%从来没取到,感觉很不合理啊.
来源:13-4 oob (Out-of-Bag) 和关于Bagging的更多讨论
伊利札洛夫
2019-01-10
2回答
-
课程中对oob的介绍不是很详细,我有时间在课程中单独添加一篇文章来详细的描述一下oob。
简单来说,37%不是对随机森林整体而言的,而是对每一棵树而言的。如果你有m个样本,对于一棵决策树,采用放回取样的方法取样m次,即也使用m个样本构成这棵决策树,大约会有37%的样本不会在这棵树中。所以,就可以使用这37%的样本作为测试数据集得到这棵树的预测准确度。随机森林的oob的结果是所有这些树oob结果的平均。
关于oob在scikit-learn中的介绍,可以参考:https://scikit-learn.org/stable/auto_examples/ensemble/plot_ensemble_oob.html
关键:The out-of-bag (OOB) error is the average error for each zi calculated using predictions from the trees that do not contain zi in their respective bootstrap sample.
加油!:)
312022-04-08 -
qq_慕娘5021797
2020-02-07
从m个样本有放回的抽m次,对指定的某个样本未被抽到的概率为(1-1/m)^m,当m趋于无穷时,概率趋于1/e (取个对数再用洛必达)约等于0.368
如果可以任意增多抽取次数,比如k次,那么为抽到概率为(1-1/m)^k ,k趋于无穷时,当然是收敛于0的,也就是几乎必然被抽到
从统计学角度,实际上机器学习需要的数学知识都非常初等 什么数理统计,测度论,泛函啦,完全不需要!!都是吓唬人的,查查定义不出5分钟都能搞定
20
相似问题