ElasticSearch新手在这里。我有一组文本文档,已通过Python ElasticSearch客户端使用ElasticSearch对其进行了索引。现在,我想使用Python和scikit-learn对文档进行一些机器学习。我需要完成以下工作。
我在思考解决此问题的正确方法时遇到了麻烦,而且ElasticSearch似乎没有任何简单的实现。
例如,我可以只从ES中检索未分析的文档,然后用Python处理这些文档,但是我想利用ES的分析器。每当我从ES查询一组文档时,我都可以使用ES的分析器,但这似乎要做两次,因为它应该已经被分析并存储在索引中。另外,我想我可以告诉ES检索每个文档的术语向量,并从每个文档的结果中手动提取令牌和计数,然后根据令牌和计数手动对TDM进行编码。到目前为止,这似乎是我能想到的最直接的方法。
是否有更简单或更直接的途径来将分析的文本的TDM从ES索引转换为Python以与机器学习包一起使用?
我最近添加了一个有关如何使用Python进行此操作的教程。
阅读完本教程后,请阅读:
如果您正在大规模做某事,建议您退房Apache Spark
。稀疏矩阵可用作Spark的MLlib的RowMatrix RDD的输入。我想很快就会有Python支持。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句