SciKit-Learn随机森林子样本大小如何等于原始训练数据大小?

所以

在SciKit-Learn随机森林分类器的文档中,指出:

子样本大小始终与原始输入样本大小相同,但是如果bootstrap = True(默认值),则将替换绘制样本。

我不明白的是,如果样本量始终与输入样本量相同,那么我们如何谈论随机选择。这里没有选择,因为我们在每次训练中都使用所有(自然是相同的)样本。

我在这里想念什么吗?

哈哈4t0

我相信这部分文档可以回答您的问题

在随机森林中(请参阅RandomForestClassifier和RandomForestRegressor类),集合中的每棵树都是根据训练集中的替换样本(即引导样本)构建的。另外,在树的构造过程中拆分节点时,选择的拆分不再是所有要素中的最佳拆分。取而代之的是,选取的分割是要素的随机子集中的最佳分割由于这种随机性,森林的偏见通常会略有增加(相对于单个非随机树的偏见),但是由于求平均值,其方差也会减少,通常大于补偿偏见的增加,因此产生了一个整体更好的模型。

理解的关键在于“替换后抽取的样本”。这意味着每个实例可以绘制一次以上。这反过来意味着,火车集合中的某些实例多次出现,而某些实例根本不存在(袋外)。这些对于不同的树是不同的

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

scikit学习RandomForestClassifier中的子样本大小

来自分类Dev

scikit学习随机森林的输入

来自分类Dev

使用scikit-learn训练多维数据

来自分类Dev

使用scikit-learn消除随机森林上的递归特征

来自分类Dev

使用scikit-learn并行生成随机森林

来自分类Dev

导出Scikit Learn随机森林以在Hadoop平台上使用

来自分类Dev

scikit-learn / python中带有字符的随机森林

来自分类Dev

使用scikit-learn消除随机森林上的递归特征

来自分类Dev

SciKit-Learn:使用随机森林时的 JoblibException

来自分类Dev

如何在scikit-learn中保存一个随机森林?

来自分类Dev

如何在Python scikit-learn中从随机森林中的每棵树输出回归预测?

来自分类Dev

使用scikit随机森林sample_weights

来自分类Dev

结合scikit学习中的随机森林模型

来自分类Dev

scikit随机森林的使用sample_weights

来自分类Dev

Scikit使用随机森林学习分类数据

来自分类Dev

如何使用scikit-learn训练XOR模型?

来自分类Dev

.arff文件与scikit-learn?

来自分类Dev

Scikit Learn中的交叉验证

来自分类Dev

Python scikit-learn-TypeError

来自分类Dev

scikit-learn StratifiedKFold实现

来自分类Dev

Scikit Learn中的距离指标

来自分类Dev

输出 Scikit Learn OLS 报告

来自分类Dev

scikit-learn:最近的邻居

来自分类Dev

Scikit-learn 导入约定

来自分类Dev

如何使用scikit crossvalidation模块将数据(原始文本)拆分为测试/训练集?

来自分类Dev

Python / Scikit学习/回归-从熊猫数据框到Scikit预测

来自分类Dev

Zip scikit学习数据集

来自分类Dev

scikit拟合数据错误

来自分类Dev

Scikit:如何选择multinomailNB的Alpha