关于那个OOB会有约37%样本不会被采样到的问题
来源:13-4 oob (Out-of-Bag) 和关于Bagging的更多讨论
慕村7477745
2018-07-19
这个比例应该跟随机采样的样本占总样本的比例有关吧,如果我一次就抽样80%,那肯定会有远低于这个比例的样本不会被采样到的
写回答
1回答
-
和取样比例无关。
注意,所谓的有放回取样(bootstrap),是指,对于从n个样本中取出k个元素,每取出一个元素,我们都要把这个元素放回,再取,这样取k次。也就是这k次取样,每次都是从n个样本中选取的。所以,我们每次取出的组成一棵决策树的那k个元素,是有重复的。如果总共有n个样本,每次我用80%的样本,也就是0.8n个样本组成决策树,这0.8n个样本是有重复的,而非无重复的。所以,并非有20%的样本取不到,而是大于20%的样本取不到。
这个取不到的样本数的极限值,为37%左右。n越大,越高概率的趋向于这个数值:)
132018-08-30
相似问题