如何从一组文本和一组特定的术语(标签)构建术语文档矩阵?

蒂莫西·亨利

我有两组数据:

  • 一组标签(单词喜欢phphtml等)

  • 一组文本

现在,我希望构建一个Term-Document-Matrix来表示tags元素在元素中出现的次数text

我已经研究了R库tmTermDocumentMatrix函数,但是看不到将标签指定为输入的可能性。

有没有办法做到这一点?

我可以使用任何工具(R,Python等),尽管使用R会很棒。


让我们将数据设置为:

TagSet <- data.frame(c("c","java","php","javascript","android"))
colnames(TagSet)[1] <- "tag"

TextSet <- data.frame(c("How to check if a java file is a javascript script java blah","blah blah php"))
colnames(TextSet)[1] <- "text"

现在我想根据TagSet获得TextSet的TermDocumentMatrix。

我尝试了这个:

myCorpus <- Corpus(VectorSource(TextSet$text))
tdm <- TermDocumentMatrix(myCorpus, control = list(removePunctuation = TRUE, stopwords=TRUE))


>inspect(tdm)
A term-document matrix (7 terms, 2 documents)

Non-/sparse entries: 8/6
Sparsity           : 43%
Maximal term length: 10 
Weighting          : term frequency (tf)

            Docs
Terms        1 2
  blah       1 2
  check      1 0
  file       1 0
  java       2 0
  javascript 1 0
  php        0 1
  script     1 0

但这是对照文本中的单词检查文本,而我想检查是否已定义标签。

用户名
tdm.onlytags <- tdm[rownames(tdm)%in%TagSet$tag,]

仅选择您指定的单词,然后继续进行分析。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Xquery如何从一组xml记录内的一组xml节点中提取专有术语?

来自分类Dev

Xquery如何从一组xml记录内的一组xml节点中提取专有术语?

来自分类Dev

jQuery获取一组特定的p标签内的文本

来自分类Dev

如何从一组文本文件中顺序读取和处理数据?

来自分类Dev

从一组到一组?

来自分类Dev

从一组矩形中创建矩形的连续矩阵

来自分类Dev

如何在Scala中从一组String中产生一组Char

来自分类Dev

如何将所选对象从一组对象推入一组对象

来自分类Dev

Prolog:从谓词列表中生成一组所有基本术语

来自分类Dev

指定一组微服务的好/正确术语是什么?

来自分类Dev

NetworkX:如何从一组预定位置构建Erdos-Renyi图?

来自分类Dev

如何从一组可渲染组件构建 JSX 组件树?

来自分类Dev

我如何基于熊猫中的一组特定日期和python中的datareader获得一组价格

来自分类Dev

熊猫,如何从一组行创建层次索引

来自分类Dev

如何从一组元素中获得组合?

来自分类Dev

如何从列表中为一组中的特定值返回一组值的索引?

来自分类Dev

如何将一组Azure网站分配给一组特定实例?

来自分类Dev

如何从矩阵中排除一组数据-Matlab

来自分类Dev

如何从一组PPTS中复制特定的幻灯片?

来自分类Dev

如何从一组单词中获取特定字母出现的次数

来自分类Dev

从键值对列表更新一组文档

来自分类Dev

文档并引用一组定义

来自分类Dev

对齐一组标签和值

来自分类Dev

使用特定标记(以及所有其他标记)构建术语文档矩阵

来自分类Dev

在Django中,如何从列表中构建一组条件?

来自分类Dev

如何从一组给定的频率和持续时间中导出Midi文件?

来自分类Dev

从一组子字符串(又名构建请求 url)中管理和构建 Url/字符串

来自分类Dev

如何在要打印的数组/矩阵中设置一组特定的数字?

来自分类Dev

文本分析:术语文档矩阵之后是什么?

Related 相关文章

  1. 1

    Xquery如何从一组xml记录内的一组xml节点中提取专有术语?

  2. 2

    Xquery如何从一组xml记录内的一组xml节点中提取专有术语?

  3. 3

    jQuery获取一组特定的p标签内的文本

  4. 4

    如何从一组文本文件中顺序读取和处理数据?

  5. 5

    从一组到一组?

  6. 6

    从一组矩形中创建矩形的连续矩阵

  7. 7

    如何在Scala中从一组String中产生一组Char

  8. 8

    如何将所选对象从一组对象推入一组对象

  9. 9

    Prolog:从谓词列表中生成一组所有基本术语

  10. 10

    指定一组微服务的好/正确术语是什么?

  11. 11

    NetworkX:如何从一组预定位置构建Erdos-Renyi图?

  12. 12

    如何从一组可渲染组件构建 JSX 组件树?

  13. 13

    我如何基于熊猫中的一组特定日期和python中的datareader获得一组价格

  14. 14

    熊猫,如何从一组行创建层次索引

  15. 15

    如何从一组元素中获得组合?

  16. 16

    如何从列表中为一组中的特定值返回一组值的索引?

  17. 17

    如何将一组Azure网站分配给一组特定实例?

  18. 18

    如何从矩阵中排除一组数据-Matlab

  19. 19

    如何从一组PPTS中复制特定的幻灯片?

  20. 20

    如何从一组单词中获取特定字母出现的次数

  21. 21

    从键值对列表更新一组文档

  22. 22

    文档并引用一组定义

  23. 23

    对齐一组标签和值

  24. 24

    使用特定标记(以及所有其他标记)构建术语文档矩阵

  25. 25

    在Django中,如何从列表中构建一组条件?

  26. 26

    如何从一组给定的频率和持续时间中导出Midi文件?

  27. 27

    从一组子字符串(又名构建请求 url)中管理和构建 Url/字符串

  28. 28

    如何在要打印的数组/矩阵中设置一组特定的数字?

  29. 29

    文本分析:术语文档矩阵之后是什么?

热门标签

归档