RandomForest() 返回阳性结果的概率以及分类

GRS

我正在构建一个 Random Forrest 分类器,我想返回分类和相关概率。我的结果变量是1or 0, 1 是我要跟踪的正类。

no_of_trees <- 50
rf.under <- randomForest(as.factor(result) ~ . ,
                         data=data_balanced_under,
                         importance=TRUE,
                         ntree=no_of_trees) 

prediction <- predict(rf.under, df.test)
probability <- predict(rf.under, df.test, type="prob")
submit <- data.frame( predicted = prediction, actual = df.test$result)

我想要概率返回正面结果的概率,但是我得到:

> probability
           0    1
242339  1.00 0.00
3356431 1.00 0.00
138327  1.00 0.00
111327  1.00 0.00
3307151 1.00 0.00
222414  1.00 0.00
1817297 1.00 0.00
3860922 1.00 0.00
1710532 1.00 0.00

在我的输出中。左边的这些数字是什么?我不确定它们是什么?我以为它们是行号,但是,为什么它们不从 1,2,3 .. 索引?我绑定了得到probability[,2]我假设给我结果的概率,但也不起作用。

理想情况下,我想在submit数据框中包含概率,但目前无法这样做。

此外,混淆矩阵给了我:

confusionMatrix(data = submit$predicted, reference = df.test$result , positive="1")

#Reference
Prediction      0      1
         0 913730    160
         1  50872   8219

有没有可能改变这个?所以它首先显示正类“1”?

伊曼纽尔-林

probability按类返回概率(这里有两个类,所以有两列)。这是以这种方式构建的,以实现多类分类。

如果你想要概率result == 1只取第二列probability

由于您有高度不平衡的类(0.8%),您的分类器倾向于预测它始终为 0...因此result==1对于大多数示例,您的概率接近 0。这就是为什么您的概率看起来不像概率的原因。

关于 的索引probability,它是rownames(df.test)的索引df.test我猜你是df.testdf. 所以索引不是从 1 开始的。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

randomForest分类预测限制

来自分类Dev

R中的类概率randomForest

来自分类Dev

R中的类概率randomForest

来自分类Dev

从保存的 TensorFlow RandomForest 分类器加载操作

来自分类Dev

在R中使用randomForest包,如何从分类模型中获得概率?

来自分类Dev

使用randomForest()和插入符号的randomForest获得不同的结果(方法=“ rf”)

来自分类Dev

H2O randomForest中的多类分类

来自分类Dev

R-具有两个结果变量的RandomForest

来自分类Dev

如何使用整个训练示例来估计sklearn RandomForest中的类概率

来自分类Dev

文本分类 - randomForest。newdata 中缺失的训练数据中的变量

来自分类Dev

使用函数 randomForest 时,分类变量的类型应该是什么?

来自分类Dev

管道和GridSearchCV,以及针对XGBoost和RandomForest的多类挑战

来自分类Dev

如何在sklearn中的RandomForest中的不同迭代中获得相同的结果

来自分类Dev

如何提高randomForest的性能?

来自分类Dev

VSURF和randomForest

来自分类Dev

找不到predict.randomForest

来自分类Dev

R randomForest重要性

来自分类Dev

randomForest中的响应变量

来自分类Dev

Spark RandomForest 训练 StackOverflow 错误

来自分类Dev

Python RandomForest-未知标签错误

来自分类Dev

使用R中的randomForest包进行预测

来自分类Dev

randomForest包中的nodesize参数被忽略

来自分类Dev

使用R对randomForest执行交叉验证

来自分类Dev

RandomForest权重错误无属性副本

来自分类Dev

R randomForest:非终端的预测值?

来自分类Dev

在scikit-learn中运行Randomforest的MemoryError

来自分类Dev

Scikit中不确定的RandomForest文档

来自分类Dev

与randomForest相比,护林员的错误预测

来自分类Dev

如何访问Spark RandomForest中的单个预测?

Related 相关文章

热门标签

归档