随机森林包预测,newdata参数?

用户名

我最近才开始使用R中的随机森林包。在扩大森林之后,我尝试使用相同的数据集(即训练数据集)预测响应,这给了我一个与打印时不同的混乱矩阵。森林对象本身。我以为newdata参数可能有问题,但是我按照文档中t给出的示例进行了操作,它也出现了同样的问题。这是使用Species数据集的示例。这与作者在文档中使用的示例相同,只是我使用相同的数据集进行训练和预测...所以这里的问题是:为什么这两个混淆矩阵不相同?

data(iris)
set.seed(111)
ind <- sample(2, nrow(iris), replace = TRUE, prob=c(0.8, 0.2))
#grow forest
iris.rf <- randomForest(Species ~ ., data=iris[ind == 1,])
print(iris.rf)

Call:
 randomForest(formula = Species ~ ., data = iris[ind == 1, ]) 
               Type of random forest: classification
                     Number of trees: 500
No. of variables tried at each split: 2

        OOB estimate of  error rate: 3.33%
Confusion matrix:
           setosa versicolor virginica class.error
setosa         45          0         0  0.00000000
versicolor      0         39         1  0.02500000
virginica       0          3        32  0.08571429

#predict using the training again...
iris.pred <- predict(iris.rf, iris[ind == 1,])
table(observed = iris[ind==1, "Species"], predicted = iris.pred)

           predicted
observed     setosa versicolor virginica
  setosa         45          0         0
  versicolor      0         40         0
  virginica       0          0        35
乔兰

您会注意到,在第一个摘要中,混淆矩阵标记为OOB estimate

这代表Out-of-Bag,并且与在森林上的训练集中直接预测每个观察结果不同。后者显然是对准确性的有偏估计,而OOB估计则不那么准确(尽管OOB也有批评意见;但至少合理)。

基本上,当您打印摘要本身时,它会进行每个观察并仅在不使用摘要的树上进行测试,即“装满袋子”。因此,OOB预测实际上仅使用森林中的一部分树(通常大约为2/3)。

当您直接在训练数据上调用预测时,它使用的树实际上是在树结构中使用了每个观察值,因此该版本的每个观察值正确无误,而OOB版本却被错误分类也就不足为奇了。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

随机森林包预测,newdata参数?

来自分类Dev

随机森林预测值

来自分类Dev

随机森林预测模型

来自分类Dev

调整Caret包中随机森林的两个参数

来自分类Dev

使用随机森林预测未来事件

来自分类Dev

随机森林模型中预测结果的差异

来自分类Dev

Tidymodels软件包:使用ggplot()可视化随机森林模型以显示最重要的预测变量

来自分类Dev

插入符号包中的“随机森林”错误

来自分类Dev

插入符号包中的“随机森林”错误

来自分类Dev

PySpark和MLLib:随机森林预测的类概率

来自分类Dev

从随机森林分类器中提取树(预测变量)

来自分类Dev

获得R中连续变量的随机森林预测精度

来自分类Dev

随机森林文本分类在预测中提供额外的行

来自分类Dev

随机森林中预测值的特征重要性?

来自分类Dev

随机森林中的tuneGrid参数问题

来自分类Dev

如何为随机森林指定 minInstancesPerNode 参数?

来自分类Dev

随机森林搜索参数中hyperopt的ValueError

来自分类Dev

鼠标r包中执行随机森林时出错

来自分类Dev

来自gamm模型错误的随机效应预测:无法在“ newdata”上评估组的期望水平

来自分类Dev

来自gamm模型错误的随机效应预测:无法在“ newdata”上评估组的期望水平

来自分类Dev

如何绘制与最佳参数相对应的随机森林树

来自分类Dev

在scikit中最终期望相同的预期和预测数组学习随机森林模型

来自分类Dev

随机森林分类-SciKit vs Weka具有100个特征的预测

来自分类Dev

将随机森林预测作为列添加到测试文件中

来自分类Dev

如何在Python scikit-learn中从随机森林中的每棵树输出回归预测?

来自分类Dev

随机森林模型的Rcaret提取预测:错误:$运算符对于原子向量无效

来自分类Dev

如何在随机森林中获得相同的预测(概率和分类)

来自分类Dev

如何在“随机森林分类器”中获取“ predict”预测的类的“ predict_proba”?

来自分类Dev

如何使用随机森林分类器确定用于预测类别的特征值的范围

Related 相关文章

  1. 1

    随机森林包预测,newdata参数?

  2. 2

    随机森林预测值

  3. 3

    随机森林预测模型

  4. 4

    调整Caret包中随机森林的两个参数

  5. 5

    使用随机森林预测未来事件

  6. 6

    随机森林模型中预测结果的差异

  7. 7

    Tidymodels软件包:使用ggplot()可视化随机森林模型以显示最重要的预测变量

  8. 8

    插入符号包中的“随机森林”错误

  9. 9

    插入符号包中的“随机森林”错误

  10. 10

    PySpark和MLLib:随机森林预测的类概率

  11. 11

    从随机森林分类器中提取树(预测变量)

  12. 12

    获得R中连续变量的随机森林预测精度

  13. 13

    随机森林文本分类在预测中提供额外的行

  14. 14

    随机森林中预测值的特征重要性?

  15. 15

    随机森林中的tuneGrid参数问题

  16. 16

    如何为随机森林指定 minInstancesPerNode 参数?

  17. 17

    随机森林搜索参数中hyperopt的ValueError

  18. 18

    鼠标r包中执行随机森林时出错

  19. 19

    来自gamm模型错误的随机效应预测:无法在“ newdata”上评估组的期望水平

  20. 20

    来自gamm模型错误的随机效应预测:无法在“ newdata”上评估组的期望水平

  21. 21

    如何绘制与最佳参数相对应的随机森林树

  22. 22

    在scikit中最终期望相同的预期和预测数组学习随机森林模型

  23. 23

    随机森林分类-SciKit vs Weka具有100个特征的预测

  24. 24

    将随机森林预测作为列添加到测试文件中

  25. 25

    如何在Python scikit-learn中从随机森林中的每棵树输出回归预测?

  26. 26

    随机森林模型的Rcaret提取预测:错误:$运算符对于原子向量无效

  27. 27

    如何在随机森林中获得相同的预测(概率和分类)

  28. 28

    如何在“随机森林分类器”中获取“ predict”预测的类的“ predict_proba”?

  29. 29

    如何使用随机森林分类器确定用于预测类别的特征值的范围

热门标签

归档