我已经使用pandas和scikit learning开发了一个垃圾邮件分类器,以便可以将其集成到基于hadoop的系统中。为此,我需要将分类器导出为比酸洗更常见的格式。
预测模型标记语言(PMML)是我首选的导出格式。它与我们已经使用过的Cascading配合使用效果非常好。但是,我惊讶地找不到任何将scikit学习模型导出到PMML的python库。
有没有人有使用此用例的经验?除了PMML之外,还有其他替代方法可以在scikit-learn和hadoop之间提供互操作性吗?可靠的PMML导出库如何?
您可以使用Py2PMML将模型导出到PMML,然后使用JPMML-Cascading在Hadoop上对其进行评估。JPMML是开源的,但Zementis的Py2PMML似乎是商业产品。除了此替代方法之外,没有其他工具可以对在Java / Hadoop上以PMML格式导出的Scikit模型进行评分。核心scikit团队正在计划实施PMML导出程序。但是,如果您不希望任何商业解决方案或等待此类工具被实施,您仍然可以选择,但是它们需要一些编码:
export_graphviz
函数获取每个决策树的DOT表示形式,并编写一个小的Java解释器。希望能帮助到你!
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句