如何从一组文本和一组特定的术语（标签）构建术语文档矩阵？

Timothée HENRY 发表于 Dev

蒂莫西·亨利

我有两组数据：

一组标签（单词喜欢php，html等）
一组文本

现在，我希望构建一个Term-Document-Matrix来表示tags元素在元素中出现的次数text。

我已经研究了R库tm和TermDocumentMatrix函数，但是看不到将标签指定为输入的可能性。

有没有办法做到这一点？

我可以使用任何工具（R，Python等），尽管使用R会很棒。

让我们将数据设置为：

TagSet <- data.frame(c("c","java","php","javascript","android"))
colnames(TagSet)[1] <- "tag"

TextSet <- data.frame(c("How to check if a java file is a javascript script java blah","blah blah php"))
colnames(TextSet)[1] <- "text"

现在我想根据TagSet获得TextSet的TermDocumentMatrix。

我尝试了这个：

myCorpus <- Corpus(VectorSource(TextSet$text))
tdm <- TermDocumentMatrix(myCorpus, control = list(removePunctuation = TRUE, stopwords=TRUE))


>inspect(tdm)
A term-document matrix (7 terms, 2 documents)

Non-/sparse entries: 8/6
Sparsity           : 43%
Maximal term length: 10 
Weighting          : term frequency (tf)

            Docs
Terms        1 2
  blah       1 2
  check      1 0
  file       1 0
  java       2 0
  javascript 1 0
  php        0 1
  script     1 0

但这是对照文本中的单词检查文本，而我想检查是否已定义标签。

用户名

tdm.onlytags <- tdm[rownames(tdm)%in%TagSet$tag,]

仅选择您指定的单词，然后继续进行分析。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-4

我来说两句

0条评论

登录后参与评论

来自分类Dev

Xquery如何从一组xml记录内的一组xml节点中提取专有术语？

来自分类Dev

Xquery如何从一组xml记录内的一组xml节点中提取专有术语？

来自分类Dev

jQuery获取一组特定的p标签内的文本

来自分类Dev

如何从一组文本文件中顺序读取和处理数据？

来自分类Dev

从一组到一组？

来自分类Dev

从一组矩形中创建矩形的连续矩阵

来自分类Dev

如何在Scala中从一组String中产生一组Char

来自分类Dev

如何将所选对象从一组对象推入一组对象

来自分类Dev

Prolog：从谓词列表中生成一组所有基本术语

来自分类Dev

指定一组微服务的好/正确术语是什么？

来自分类Dev

NetworkX：如何从一组预定位置构建Erdos-Renyi图？

来自分类Dev

如何从一组可渲染组件构建 JSX 组件树？

来自分类Dev

我如何基于熊猫中的一组特定日期和python中的datareader获得一组价格

来自分类Dev

熊猫，如何从一组行创建层次索引

来自分类Dev

如何从一组元素中获得组合？

来自分类Dev

如何从列表中为一组中的特定值返回一组值的索引？

来自分类Dev

如何将一组Azure网站分配给一组特定实例？

来自分类Dev

如何从矩阵中排除一组数据-Matlab

来自分类Dev

如何从一组PPTS中复制特定的幻灯片？

来自分类Dev

如何从一组单词中获取特定字母出现的次数

来自分类Dev

从键值对列表更新一组文档

来自分类Dev

文档并引用一组定义

来自分类Dev

对齐一组标签和值

来自分类Dev

使用特定标记（以及所有其他标记）构建术语文档矩阵

来自分类Dev

在Django中，如何从列表中构建一组条件？

来自分类Dev

如何从一组给定的频率和持续时间中导出Midi文件？

来自分类Dev

从一组子字符串（又名构建请求 url）中管理和构建 Url/字符串

来自分类Dev

如何在要打印的数组/矩阵中设置一组特定的数字？

来自分类Dev

文本分析：术语文档矩阵之后是什么？

Related 相关文章

文章