从ElasticSearch索引在Python中创建术语文档矩阵

污渍

ElasticSearch新手在这里。我有一组文本文档,已通过Python ElasticSearch客户端使用ElasticSearch对其进行了索引。现在,我想使用Python和scikit-learn对文档进行一些机器学习。我需要完成以下工作。

  1. 使用ElasticSearch分析器处理文本(摘录,小写字母等)
  2. 从索引中检索已处理的文档(或已分析的标记)。
  3. 将处理后的文档转换为术语文档矩阵以进行分类(可能使用scikit-learn中的CountVectorizer)。或者,也许有某种方法可以直接从ElasticSearch检索TDM。

我在思考解决此问题的正确方法时遇到了麻烦,而且ElasticSearch似乎没有任何简单的实现。

例如,我可以只从ES中检索未分析的文档,然后用Python处理这些文档,但是我想利用ES的分析器。每当我从ES查询一组文档时,我都可以使用ES的分析器,但这似乎要做两次,因为它应该已经被分析并存储在索引中。另外,我想我可以告诉ES检索每个文档的术语向量,并从每个文档的结果中手动提取令牌和计数,然后根据令牌和计数手动对TDM进行编码。到目前为止,这似乎是我能想到的最直接的方法。

是否有更简单或更直接的途径来将分析的文本的TDM从ES索引转换为Python以与机器学习包一起使用?

Animesh Pandey

我最近添加了一个有关如何使用Python进行此操作教程

阅读完本教程后,请阅读:

如果您正在大规模做某事,建议您退房Apache Spark稀疏矩阵可用作Spark的MLlib的RowMatrix RDD的输入我想很快就会有Python支持。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Python:从列表创建术语文档矩阵

来自分类Dev

R中字母的术语文档矩阵

来自分类Dev

如何在Python中的术语文档矩阵中使用PCA?

来自分类Dev

如何在python中制作术语文档

来自分类Dev

将大文档术语文档矩阵转换为矩阵

来自分类Dev

将术语文档矩阵转换为tm库支持的术语文档矩阵

来自分类Dev

在R中创建文档术语矩阵

来自分类Dev

Python如何使用(i,j)项作为术语索引创建文档矩阵

来自分类Dev

将术语文档矩阵转换为R中的节点/边列表

来自分类Dev

将术语文档矩阵传递给Gensim LDA模型

来自分类Dev

文本分析:术语文档矩阵之后是什么?

来自分类Dev

整洁的文本:从以下术语文档矩阵计算 Zipf 定律

来自分类Dev

R 将数据框转换为术语文档矩阵

来自分类Dev

如何在scikit-learn中查看tfidf之后的术语文档矩阵的前n个条目

来自分类Dev

R中的文档术语矩阵

来自分类Dev

R:使用tm和proxy计算距术语文档矩阵的余弦距离

来自分类Dev

将包含行名,列名和频率的pandas df转换为术语文档矩阵

来自分类Dev

使用特定标记(以及所有其他标记)构建术语文档矩阵

来自分类Dev

从Python中的ElasticSearch索引中删除文档

来自分类Dev

如何从一组文本和一组特定的术语(标签)构建术语文档矩阵?

来自分类Dev

在elasticsearch中查找包含术语的文档数量

来自分类Dev

如何使用本机R创建文档术语矩阵

来自分类Dev

如何使用本机R创建文档术语矩阵

来自分类Dev

为文档建立索引后,术语会被截断(Elasticsearch)

来自分类Dev

分析在ElasticSearch中建立索引的术语

来自分类Dev

如何在R中附加到文档术语矩阵?

来自分类Dev

如何快速应用 R 中的文档术语矩阵

来自分类Dev

如何在python中创建文档词频矩阵

来自分类Dev

Python CountVectorizer:文档中存在术语

Related 相关文章

  1. 1

    Python:从列表创建术语文档矩阵

  2. 2

    R中字母的术语文档矩阵

  3. 3

    如何在Python中的术语文档矩阵中使用PCA?

  4. 4

    如何在python中制作术语文档

  5. 5

    将大文档术语文档矩阵转换为矩阵

  6. 6

    将术语文档矩阵转换为tm库支持的术语文档矩阵

  7. 7

    在R中创建文档术语矩阵

  8. 8

    Python如何使用(i,j)项作为术语索引创建文档矩阵

  9. 9

    将术语文档矩阵转换为R中的节点/边列表

  10. 10

    将术语文档矩阵传递给Gensim LDA模型

  11. 11

    文本分析:术语文档矩阵之后是什么?

  12. 12

    整洁的文本:从以下术语文档矩阵计算 Zipf 定律

  13. 13

    R 将数据框转换为术语文档矩阵

  14. 14

    如何在scikit-learn中查看tfidf之后的术语文档矩阵的前n个条目

  15. 15

    R中的文档术语矩阵

  16. 16

    R:使用tm和proxy计算距术语文档矩阵的余弦距离

  17. 17

    将包含行名,列名和频率的pandas df转换为术语文档矩阵

  18. 18

    使用特定标记(以及所有其他标记)构建术语文档矩阵

  19. 19

    从Python中的ElasticSearch索引中删除文档

  20. 20

    如何从一组文本和一组特定的术语(标签)构建术语文档矩阵?

  21. 21

    在elasticsearch中查找包含术语的文档数量

  22. 22

    如何使用本机R创建文档术语矩阵

  23. 23

    如何使用本机R创建文档术语矩阵

  24. 24

    为文档建立索引后,术语会被截断(Elasticsearch)

  25. 25

    分析在ElasticSearch中建立索引的术语

  26. 26

    如何在R中附加到文档术语矩阵?

  27. 27

    如何快速应用 R 中的文档术语矩阵

  28. 28

    如何在python中创建文档词频矩阵

  29. 29

    Python CountVectorizer:文档中存在术语

热门标签

归档