在随机森林中查找重要特征非常缓慢

埃莉诺拉

我有一组与二进制类标签关联的特征向量,每个特征向量都有大约40,000个特征。我训练使用随机森林分类RandomForestClassifiersklearn大约需要10分钟。但是,我想看看哪些是最重要的功能。

我尝试简单地打印出来,clf.feature_importances_但是每个功能大约需要1秒,因此总共需要大约40,000秒(大约12个小时)。这比最初训练分类器所需的时间长得多!

有没有更有效的方法来找出哪些功能最重要?

这是我的意思的示例:

from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators=50)
clf = clf.fit(X, Y)
for i in xrange(len(clf.feature_importances_)):
    print clf.feature_importances_[i]
阿哈吉卜

您需要做的就是将结果存储clf.feature_importances_在数组中,然后使用它来打印结果。喜欢:

from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators=50)
clf = clf.fit(X, Y)

featureImportance = clf.feature_importances_
for i in xrange(len(featureImportance)):
    print featureImportance[i]

您现在处理它的方式是每一次重新计算数组。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

随机森林中预测值的特征重要性?

来自分类Dev

从混合效应随机森林中获取特征重要性

来自分类Dev

如何区分重要特征与xgboost或随机森林的方向?

来自分类Dev

随机森林中要素每个级别的重要性顺序

来自分类Dev

在h2o随机森林中用于“重要性”的度量是什么

来自分类Dev

随机森林中的tuneGrid参数问题

来自分类Dev

随机森林分类器:预测概率的特征重要性

来自分类Dev

森林树木的特征重要性

来自分类Dev

随机森林中每棵树的平均绝对误差

来自分类Dev

无法弄清楚如何清除随机森林中的NaN

来自分类Dev

R:在随机森林中调整mtry时出错(回归)

来自分类Dev

获得随机森林中决策树的价值

来自分类Dev

查找森林中所有断开连接的树木的MST

来自分类Dev

sklearn随机森林索引的功能如何_重要_

来自分类Dev

随机森林 sklearn 变量重要性

来自分类Dev

如何从回归随机森林中获得概率密度函数?

来自分类Dev

如何获取Spark MLlib随机森林中每个树节点的记录计数/类分布?

来自分类Dev

如何在Python scikit-learn中从随机森林中的每棵树输出回归预测?

来自分类Dev

如何在随机森林中获得相同的预测(概率和分类)

来自分类Dev

如何从回归随机森林中获得概率密度函数?

来自分类Dev

随机森林中的 class_weight 超参数改变了混淆矩阵中的样本数量

来自分类Dev

随机森林中的“方差解释”与 XGBoost 中的“错误”有什么区别

来自分类Dev

如何模拟要在 R 中的随机森林中使用的分类数据?

来自分类Dev

使用scikit-learn消除随机森林上的递归特征

来自分类Dev

sklearn随机森林可以直接处理分类特征吗?

来自分类Dev

使用scikit-learn消除随机森林上的递归特征

来自分类Dev

随机森林的模型和输入特征不匹配

来自分类Dev

自特征选择以来,随机森林获得 100% 的分数

来自分类Dev

决策函数中特征的系数。随机森林

Related 相关文章

  1. 1

    随机森林中预测值的特征重要性?

  2. 2

    从混合效应随机森林中获取特征重要性

  3. 3

    如何区分重要特征与xgboost或随机森林的方向?

  4. 4

    随机森林中要素每个级别的重要性顺序

  5. 5

    在h2o随机森林中用于“重要性”的度量是什么

  6. 6

    随机森林中的tuneGrid参数问题

  7. 7

    随机森林分类器:预测概率的特征重要性

  8. 8

    森林树木的特征重要性

  9. 9

    随机森林中每棵树的平均绝对误差

  10. 10

    无法弄清楚如何清除随机森林中的NaN

  11. 11

    R:在随机森林中调整mtry时出错(回归)

  12. 12

    获得随机森林中决策树的价值

  13. 13

    查找森林中所有断开连接的树木的MST

  14. 14

    sklearn随机森林索引的功能如何_重要_

  15. 15

    随机森林 sklearn 变量重要性

  16. 16

    如何从回归随机森林中获得概率密度函数?

  17. 17

    如何获取Spark MLlib随机森林中每个树节点的记录计数/类分布?

  18. 18

    如何在Python scikit-learn中从随机森林中的每棵树输出回归预测?

  19. 19

    如何在随机森林中获得相同的预测(概率和分类)

  20. 20

    如何从回归随机森林中获得概率密度函数?

  21. 21

    随机森林中的 class_weight 超参数改变了混淆矩阵中的样本数量

  22. 22

    随机森林中的“方差解释”与 XGBoost 中的“错误”有什么区别

  23. 23

    如何模拟要在 R 中的随机森林中使用的分类数据?

  24. 24

    使用scikit-learn消除随机森林上的递归特征

  25. 25

    sklearn随机森林可以直接处理分类特征吗?

  26. 26

    使用scikit-learn消除随机森林上的递归特征

  27. 27

    随机森林的模型和输入特征不匹配

  28. 28

    自特征选择以来,随机森林获得 100% 的分数

  29. 29

    决策函数中特征的系数。随机森林

热门标签

归档