处理大数据以执行随机森林分类

约翰尼·Q

我目前正在撰写论文,涉及处理相当大的数据集:〜4百万个观测值和〜260个特征。它是国际象棋游戏的数据集,其中的大多数功能都是球员假人(每种颜色130k)。

至于硬件和软件,我在这台计算机上有大约12GB的RAM。我正在Python 3.5中进行所有工作,并且主要使用pandas和scikit-learn软件包。

我的问题是,显然我无法将这么多的数据加载到我的RAM中。我想做的是生成虚拟变量,然后将数据库切成大约一千个左右的块,应用随机森林,然后再次汇总结果。

但是,要做到这一点,我将需要能够首先创建虚拟变量,即使使用稀疏矩阵,由于内存错误,我也无法做到这一点。从理论上讲,我可以先对数据库进行切片,然后创建虚拟变量。但是,这样做的结果是,对于不同的切片,我将具有不同的功能,因此我不确定如何汇总此类结果。

我的问题:
1.你们将如何解决这个问题?尽管在不同的数据“块”中具有不同的功能,是否有办法“合并”我的估计结果?
2.也许可以通过租用服务器来完全避免此问题。是否有此类服务的试用版?我不确定要完成此任务需要多少CPU / RAM。

谢谢您的帮助,任何提示将不胜感激:)

技术

我建议您尝试一下CloudxLab。

尽管它不是免费的,但价格却相当便宜(每月25美元)。它提供了完整的环境,可以使用HDFS,Map-Reduce,Hive,Pig,Kafka,Spark,Scala,Sqoop,Oozie,Mahout,MLLIb,Zookeeper,R,Scala等各种工具进行实验。许多流行的培训师都在使用CloudxLab 。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

训练随机森林分类器火花

来自分类Dev

将mahout随机森林分类输出转换为可读

来自分类Dev

从随机森林分类器中提取树(预测变量)

来自分类Dev

ValueError:scikit的随机森林分类学习

来自分类Dev

随机森林分类器Matlab v / s Python

来自分类Dev

随机森林分类器Matlab v / s Python

来自分类Dev

我在随机森林分类器中遇到 Not Fitted 错误?

来自分类Dev

为什么改组训练数据会影响我的随机森林分类器的准确性?

来自分类Dev

如何在GridSearchCV(随机森林分类器Scikit)上获得最佳估计器

来自分类Dev

随机森林分类-SciKit vs Weka具有100个特征的预测

来自分类Dev

为随机森林分类器运行任何BayesSearchCV函数时出错

来自分类Dev

如何在“随机森林分类器”中获取“ predict”预测的类的“ predict_proba”?

来自分类Dev

如何使用随机森林分类器确定用于预测类别的特征值的范围

来自分类Dev

如何在Orange中为随机森林分类器使用样本权重?

来自分类Dev

随机森林分类器:预测概率的特征重要性

来自分类Dev

如何为随机森林分类器,Ada Boost分类器,Extra Trees分类器访问python scikit学习代码

来自分类Dev

随机森林分类器ValueError:输入包含NaN,无穷大或对于dtype('float32')而言太大的值

来自分类Dev

sklearn随机森林可以直接处理分类特征吗?

来自分类Dev

Scikit使用随机森林学习分类数据

来自分类Dev

如何在Scikit学习中将固定的验证集(而非K折交叉验证)用于决策树分类器/随机森林分类器?

来自分类Dev

分组处理/评分的随机森林

来自分类Dev

如何模拟要在 R 中的随机森林中使用的分类数据?

来自分类Dev

执行随机森林时的最小观察次数

来自分类Dev

执行随机森林时的最小观察次数

来自分类Dev

具有分类输入的回归树或随机森林回归器

来自分类Dev

互分随机森林模型的文本分类

来自分类Dev

随机森林的多重分类-如何衡量结果的“稳定性”

来自分类Dev

具有分类输入的回归树或随机森林回归器

来自分类Dev

随机森林文本分类在预测中提供额外的行

Related 相关文章

  1. 1

    训练随机森林分类器火花

  2. 2

    将mahout随机森林分类输出转换为可读

  3. 3

    从随机森林分类器中提取树(预测变量)

  4. 4

    ValueError:scikit的随机森林分类学习

  5. 5

    随机森林分类器Matlab v / s Python

  6. 6

    随机森林分类器Matlab v / s Python

  7. 7

    我在随机森林分类器中遇到 Not Fitted 错误?

  8. 8

    为什么改组训练数据会影响我的随机森林分类器的准确性?

  9. 9

    如何在GridSearchCV(随机森林分类器Scikit)上获得最佳估计器

  10. 10

    随机森林分类-SciKit vs Weka具有100个特征的预测

  11. 11

    为随机森林分类器运行任何BayesSearchCV函数时出错

  12. 12

    如何在“随机森林分类器”中获取“ predict”预测的类的“ predict_proba”?

  13. 13

    如何使用随机森林分类器确定用于预测类别的特征值的范围

  14. 14

    如何在Orange中为随机森林分类器使用样本权重?

  15. 15

    随机森林分类器:预测概率的特征重要性

  16. 16

    如何为随机森林分类器,Ada Boost分类器,Extra Trees分类器访问python scikit学习代码

  17. 17

    随机森林分类器ValueError:输入包含NaN,无穷大或对于dtype('float32')而言太大的值

  18. 18

    sklearn随机森林可以直接处理分类特征吗?

  19. 19

    Scikit使用随机森林学习分类数据

  20. 20

    如何在Scikit学习中将固定的验证集(而非K折交叉验证)用于决策树分类器/随机森林分类器?

  21. 21

    分组处理/评分的随机森林

  22. 22

    如何模拟要在 R 中的随机森林中使用的分类数据?

  23. 23

    执行随机森林时的最小观察次数

  24. 24

    执行随机森林时的最小观察次数

  25. 25

    具有分类输入的回归树或随机森林回归器

  26. 26

    互分随机森林模型的文本分类

  27. 27

    随机森林的多重分类-如何衡量结果的“稳定性”

  28. 28

    具有分类输入的回归树或随机森林回归器

  29. 29

    随机森林文本分类在预测中提供额外的行

热门标签

归档