bobo老师, 这里的37%和次数都无关的吗? 500次还有37%从来没取到,感觉很不合理啊.

来源:13-4 oob (Out-of-Bag) 和关于Bagging的更多讨论

伊利札洛夫

2019-01-10

写回答

2回答

liuyubobobo

2019-01-11

课程中对oob的介绍不是很详细,我有时间在课程中单独添加一篇文章来详细的描述一下oob。


简单来说,37%不是对随机森林整体而言的,而是对每一棵树而言的。如果你有m个样本,对于一棵决策树,采用放回取样的方法取样m次,即也使用m个样本构成这棵决策树,大约会有37%的样本不会在这棵树中。所以,就可以使用这37%的样本作为测试数据集得到这棵树的预测准确度。随机森林的oob的结果是所有这些树oob结果的平均。


关于oob在scikit-learn中的介绍,可以参考:https://scikit-learn.org/stable/auto_examples/ensemble/plot_ensemble_oob.html 


关键:The out-of-bag (OOB) error is the average error for each zi calculated using predictions from the trees that do not contain zi in their respective bootstrap sample.


加油!:)

3
1
劉謹賢
請問寫在論文上可以直接使用OOB Score嗎? 不過如果只是算個平均,不就沒有用到最後投票的技術?只有用到放回取樣的技術。
2022-04-08
共1条回复

qq_慕娘5021797

2020-02-07

从m个样本有放回的抽m次,对指定的某个样本未被抽到的概率为(1-1/m)^m,当m趋于无穷时,概率趋于1/e (取个对数再用洛必达)约等于0.368

如果可以任意增多抽取次数,比如k次,那么为抽到概率为(1-1/m)^k ,k趋于无穷时,当然是收敛于0的,也就是几乎必然被抽到

从统计学角度,实际上机器学习需要的数学知识都非常初等 什么数理统计,测度论,泛函啦,完全不需要!!都是吓唬人的,查查定义不出5分钟都能搞定




2
0

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5839 学习 · 2437 问题

查看课程