在SciKit-Learn随机森林分类器的文档中,指出:
子样本大小始终与原始输入样本大小相同,但是如果bootstrap = True(默认值),则将替换绘制样本。
我不明白的是,如果样本量始终与输入样本量相同,那么我们如何谈论随机选择。这里没有选择,因为我们在每次训练中都使用所有(自然是相同的)样本。
我在这里想念什么吗?
我相信这部分文档可以回答您的问题
在随机森林中(请参阅RandomForestClassifier和RandomForestRegressor类),集合中的每棵树都是根据训练集中的替换样本(即引导样本)构建的。另外,在树的构造过程中拆分节点时,选择的拆分不再是所有要素中的最佳拆分。取而代之的是,选取的分割是要素的随机子集中的最佳分割。由于这种随机性,森林的偏见通常会略有增加(相对于单个非随机树的偏见),但是由于求平均值,其方差也会减少,通常大于补偿偏见的增加,因此产生了一个整体更好的模型。
理解的关键在于“替换后抽取的样本”。这意味着每个实例可以绘制一次以上。这反过来意味着,火车集合中的某些实例多次出现,而某些实例根本不存在(袋外)。这些对于不同的树是不同的
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句