处理大数据以执行随机森林分类

JohnnyQ 发表于 Dev

约翰尼·Q

我目前正在撰写论文，涉及处理相当大的数据集：〜4百万个观测值和〜260个特征。它是国际象棋游戏的数据集，其中的大多数功能都是球员假人（每种颜色130k）。

至于硬件和软件，我在这台计算机上有大约12GB的RAM。我正在Python 3.5中进行所有工作，并且主要使用pandas和scikit-learn软件包。

我的问题是，显然我无法将这么多的数据加载到我的RAM中。我想做的是生成虚拟变量，然后将数据库切成大约一千个左右的块，应用随机森林，然后再次汇总结果。

但是，要做到这一点，我将需要能够首先创建虚拟变量，即使使用稀疏矩阵，由于内存错误，我也无法做到这一点。从理论上讲，我可以先对数据库进行切片，然后创建虚拟变量。但是，这样做的结果是，对于不同的切片，我将具有不同的功能，因此我不确定如何汇总此类结果。

我的问题：
1.你们将如何解决这个问题？尽管在不同的数据“块”中具有不同的功能，是否有办法“合并”我的估计结果？
2.也许可以通过租用服务器来完全避免此问题。是否有此类服务的试用版？我不确定要完成此任务需要多少CPU / RAM。

谢谢您的帮助，任何提示将不胜感激:)

技术

我建议您尝试一下CloudxLab。

尽管它不是免费的，但价格却相当便宜（每月25美元）。它提供了完整的环境，可以使用HDFS，Map-Reduce，Hive，Pig，Kafka，Spark，Scala，Sqoop，Oozie，Mahout，MLLIb，Zookeeper，R，Scala等各种工具进行实验。许多流行的培训师都在使用CloudxLab 。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-03-3

我来说两句

0条评论

登录后参与评论

上一篇：如何使用pyspark和regex在字符串的RDD中查找所有以my_str开头的单词？

来自分类Dev

Related 相关文章

文章

处理大数据以执行随机森林分类

处理大数据以执行随机森林分类

训练随机森林分类器火花

将mahout随机森林分类输出转换为可读

从随机森林分类器中提取树（预测变量）

ValueError：scikit的随机森林分类学习

随机森林分类器Matlab v / s Python

随机森林分类器Matlab v / s Python

我在随机森林分类器中遇到 Not Fitted 错误？

为什么改组训练数据会影响我的随机森林分类器的准确性？

如何在GridSearchCV（随机森林分类器Scikit）上获得最佳估计器

随机森林分类-SciKit vs Weka具有100个特征的预测

为随机森林分类器运行任何BayesSearchCV函数时出错

如何在“随机森林分类器”中获取“ predict”预测的类的“ predict_proba”？

如何使用随机森林分类器确定用于预测类别的特征值的范围

如何在Orange中为随机森林分类器使用样本权重？

随机森林分类器：预测概率的特征重要性

如何为随机森林分类器，Ada Boost分类器，Extra Trees分类器访问python scikit学习代码

随机森林分类器ValueError：输入包含NaN，无穷大或对于dtype（'float32'）而言太大的值

sklearn随机森林可以直接处理分类特征吗？

Scikit使用随机森林学习分类数据

如何在Scikit学习中将固定的验证集（而非K折交叉验证）用于决策树分类器/随机森林分类器？

分组处理/评分的随机森林

如何模拟要在 R 中的随机森林中使用的分类数据？

执行随机森林时的最小观察次数

执行随机森林时的最小观察次数

具有分类输入的回归树或随机森林回归器

互分随机森林模型的文本分类

随机森林的多重分类-如何衡量结果的“稳定性”

具有分类输入的回归树或随机森林回归器

随机森林文本分类在预测中提供额外的行