关于那个OOB会有约37%样本不会被采样到的问题

来源:13-4 oob (Out-of-Bag) 和关于Bagging的更多讨论

慕村7477745

2018-07-19

这个比例应该跟随机采样的样本占总样本的比例有关吧,如果我一次就抽样80%,那肯定会有远低于这个比例的样本不会被采样到的

写回答

1回答

liuyubobobo

2018-07-20

和取样比例无关。


注意,所谓的有放回取样(bootstrap),是指,对于从n个样本中取出k个元素,每取出一个元素,我们都要把这个元素放回,再取,这样取k次。也就是这k次取样,每次都是从n个样本中选取的。所以,我们每次取出的组成一棵决策树的那k个元素,是有重复的。如果总共有n个样本,每次我用80%的样本,也就是0.8n个样本组成决策树,这0.8n个样本是有重复的,而非无重复的。所以,并非有20%的样本取不到,而是大于20%的样本取不到。


这个取不到的样本数的极限值,为37%左右。n越大,越高概率的趋向于这个数值:)

1
3
liuyubobobo
回复
慕数据1402393
会降低。这不是放回取样本身的定义:)
2018-08-30
共3条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5839 学习 · 2437 问题

查看课程