我对Hadoop非常熟悉,但对Apache Spark来说是全新的。目前,我正在使用Mahout中实现的LDA(潜在狄利克雷分配)算法来进行主题发现。但是,由于我需要加快处理速度,因此我想使用Spark,但是LDA(或CVB)算法未在Spark MLib中实现。这是否意味着我必须自己重新实施?如果是这样,Spark是否提供一些使其更容易使用的工具?
LDA是最近才添加到Spark中的。它不是当前1.2.1版本的一部分。
但是,您可以在当前的SNAPSHOT版本上找到一个示例:LDAExample.scala
您还可以阅读有关SPARK-1405问题的有趣信息。
不发布时,最简单的方法可能是在项目中复制以下类,就像您自己编写代码一样:
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句