导出Scikit Learn随机森林以在Hadoop平台上使用

阿克塞尔·马格努森(Axel Magnuson)

我已经使用pandas和scikit learning开发了一个垃圾邮件分类器,以便可以将其集成到基于hadoop的系统中。为此,我需要将分类器导出为比酸洗更常见的格式。

预测模型标记语言(PMML)是我首选的导出格式。它与我们已经使用过的Cascading配合使用效果非常好。但是,我惊讶地找不到任何将scikit学习模型导出到PMML的python库。

有没有人有使用此用例的经验?除了PMML之外,还有其他替代方法可以在scikit-learn和hadoop之间提供互操作性吗?可靠的PMML导出库如何?

X

您可以使用Py2PMML将模型导出到PMML,然后使用JPMML-Cascading在Hadoop上对其进行评估JPMML是开源的,但Zementis的Py2PMML似乎是商业产品。除了此替代方法之外,没有其他工具可以对在Java / Hadoop上以PMML格式导出的Scikit模型进行评分。核心scikit团队正在计划实施PMML导出程序。但是,如果您不希望任何商业解决方案或等待此类工具被实施,您仍然可以选择,但是它们需要一些编码:

  • 调整SKLearn编译树项目,使其生成Java / MapReduce代码而不是C。
  • 使用该export_graphviz函数获取每个决策树的DOT表示形式,并编写一个小的Java解释器。
  • 忘记Java和Hadoop,使用Apache Spark并使用Python,Scikit和PySpark并行评估每个决策树。

希望能帮助到你!

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用scikit-learn消除随机森林上的递归特征

来自分类Dev

使用scikit-learn并行生成随机森林

来自分类Dev

使用scikit-learn消除随机森林上的递归特征

来自分类Dev

SciKit-Learn:使用随机森林时的 JoblibException

来自分类Dev

为什么scikit-learn的随机森林使用这么多内存?

来自分类Dev

使用scikit随机森林sample_weights

来自分类Dev

scikit随机森林的使用sample_weights

来自分类Dev

scikit-learn / python中带有字符的随机森林

来自分类Dev

scikit学习随机森林的输入

来自分类Dev

Scikit使用随机森林学习分类数据

来自分类Dev

Python - 使用 scikit 学习随机森林关于值格式的错误

来自分类Dev

SciKit-Learn随机森林子样本大小如何等于原始训练数据大小?

来自分类Dev

如何在scikit-learn中保存一个随机森林?

来自分类Dev

scikit-learn:随机森林的class_weight和sample_weight参数

来自分类Dev

在随机森林模型(Python,scikit-learn)中访问单个树的底层(tree_)对象

来自分类Dev

如何在Python scikit-learn中从随机森林中的每棵树输出回归预测?

来自分类Dev

结合scikit学习中的随机森林模型

来自分类Dev

Scikit学习-如何使用SVM和随机森林进行文本分类?

来自分类Dev

scikit-学习随机森林过多的内存使用情况

来自分类Dev

如何使用SciKit随机森林的oob_decision_function_学习曲线?

来自分类Dev

使用标准MAE而不是MSE的scikit学习中的随机森林回归慢约150倍

来自分类Dev

ValueError:scikit的随机森林分类学习

来自分类Dev

Scikit学习随机森林拟合方法中的值误差

来自分类Dev

为什么scikit-learn truncatedSVD默认使用“随机化”算法?

来自分类Dev

如何在GridSearchCV(随机森林分类器Scikit)上获得最佳估计器

来自分类Dev

在scikit中最终期望相同的预期和预测数组学习随机森林模型

来自分类Dev

scikit中的弱学习者学习随机森林和多余的树分类器

来自分类Dev

随机森林分类-SciKit vs Weka具有100个特征的预测

来自分类Dev

Python Scikit随机森林pred_proba输出四舍五入值

Related 相关文章

  1. 1

    使用scikit-learn消除随机森林上的递归特征

  2. 2

    使用scikit-learn并行生成随机森林

  3. 3

    使用scikit-learn消除随机森林上的递归特征

  4. 4

    SciKit-Learn:使用随机森林时的 JoblibException

  5. 5

    为什么scikit-learn的随机森林使用这么多内存?

  6. 6

    使用scikit随机森林sample_weights

  7. 7

    scikit随机森林的使用sample_weights

  8. 8

    scikit-learn / python中带有字符的随机森林

  9. 9

    scikit学习随机森林的输入

  10. 10

    Scikit使用随机森林学习分类数据

  11. 11

    Python - 使用 scikit 学习随机森林关于值格式的错误

  12. 12

    SciKit-Learn随机森林子样本大小如何等于原始训练数据大小?

  13. 13

    如何在scikit-learn中保存一个随机森林?

  14. 14

    scikit-learn:随机森林的class_weight和sample_weight参数

  15. 15

    在随机森林模型(Python,scikit-learn)中访问单个树的底层(tree_)对象

  16. 16

    如何在Python scikit-learn中从随机森林中的每棵树输出回归预测?

  17. 17

    结合scikit学习中的随机森林模型

  18. 18

    Scikit学习-如何使用SVM和随机森林进行文本分类?

  19. 19

    scikit-学习随机森林过多的内存使用情况

  20. 20

    如何使用SciKit随机森林的oob_decision_function_学习曲线?

  21. 21

    使用标准MAE而不是MSE的scikit学习中的随机森林回归慢约150倍

  22. 22

    ValueError:scikit的随机森林分类学习

  23. 23

    Scikit学习随机森林拟合方法中的值误差

  24. 24

    为什么scikit-learn truncatedSVD默认使用“随机化”算法?

  25. 25

    如何在GridSearchCV(随机森林分类器Scikit)上获得最佳估计器

  26. 26

    在scikit中最终期望相同的预期和预测数组学习随机森林模型

  27. 27

    scikit中的弱学习者学习随机森林和多余的树分类器

  28. 28

    随机森林分类-SciKit vs Weka具有100个特征的预测

  29. 29

    Python Scikit随机森林pred_proba输出四舍五入值

热门标签

归档