在R tm包中,从Document-Term-Matrix构建语料库

辛瓦夫

使用tm包从语料库构建文档术语矩阵很简单。我想根据文档术语矩阵建立语料库。

令M为文档集中的文档数。令V为该文档集中词汇中的术语数。然后,文档术语矩阵为M * V矩阵。

我也有一个长度为V的词汇向量。在词汇向量中,是文档术语矩阵中由索引表示的单词。

从dtm和词汇向量,我想构造一个“语料库”对象。这是因为我想阻止文档集。我手动构建了dtm和vocab-即,从来没有一个代表我的数据集的tm“语料库”对象,所以我不能使用该功能,

tm_map(corpus, stemDocument, language="english")

我一直在尝试构建一种变通方法,在该变通方法中我阻止词汇并仅保留唯一的单词,但是要维护dtm和词汇向量之间的对应关系会变得有些复杂。

理想情况下,最终结果将是我的词汇向量是词干,并且仅包含唯一条目,并且dtm索引对应于词干的词汇向量。如果您可以想到其他方法,我也将不胜感激。

如果我可以简单地从dtm和词汇向量构建一个tm“语料库”,阻止语料库,然后再转换回dtm和词汇向量(我已经知道如何进行这些转换),那么我的麻烦就会得到解决。

让我知道是否可以进一步澄清问题。

泰勒·林克

这是从包装中提供我自己的最小可复制示例(作为新用户,您可能不知道这是您的责任)的方法tm

## Minimal Reproducible Example
library(tm)
data("crude")
dtm <- DocumentTermMatrix(crude,
    control = list(weighting =
    function(x)
        weightTfIdf(x, normalize = FALSE),
        stopwords = TRUE))

## Convert tdm to a list of text
dtm2list <- apply(dtm, 1, function(x) {
    paste(rep(names(x), x), collapse=" ")
})

## convert to a Corpus
myCorp <- VCorpus(VectorSource(dtm2list))
inspect(myCorp)

## Stemming
myCorp <- tm_map(myCorp, stemDocument)
inspect(myCorp)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在R tm包中显示语料库文本?

来自分类Dev

使用gsub的语料库中的R tm替代词

来自分类Dev

在R tm软件包的term-document矩阵中包括所有标记

来自分类Dev

如何将字符向量从R中的tm包转换为DocumentTermMatrix函数的语料库输入?

来自分类Dev

R tm软件包vcorpus:将语料库转换为数据帧时出错

来自分类Dev

在R中如何不通过语料库/ VCorpus将稀疏或simple_triplet_matrix转换为tm-package文档术语矩阵?

来自分类Dev

如何基于元数据过滤R中的tm语料库中的文档?

来自分类Dev

如何基于元数据过滤R中的tm语料库中的文档?

来自分类Dev

从R中的语料库中删除短语(停用词)?

来自分类Dev

R:Quanteda从语料库中删除标签

来自分类Dev

如何从 R 中的整个语料库中提取文档?

来自分类Dev

从R中的Document-Term-Matrix过滤行/文档

来自分类Dev

从R中的Document-Term-Matrix过滤行/文档

来自分类Dev

在R中使用tm的语料库功能处理大数据

来自分类Dev

在R中,如何计算语料库中的特定单词?

来自分类Dev

利用R中JSON文件中存储的文本创建语料库

来自分类Dev

在 R 中读取语料库中每个文档的前两行

来自分类Dev

tm合并语料库列表

来自分类Dev

tm合并语料库列表

来自分类Dev

如何将列表转换为R中的语料库?

来自分类Dev

将语料库转换为R中的data.frame

来自分类Dev

在R中的语料库上删除停用词并降低功能

来自分类Dev

在R语料库中搜索所有以“ esque”结尾的单词

来自分类Dev

从R中用户定义的语料库中删除停用词

来自分类Dev

R中的文本挖掘:创建语料库会创建不寻常的文本

来自分类Dev

从R中用户定义的语料库中删除停用词

来自分类Dev

使用R在一个语料库中合并两个单词

来自分类Dev

R用多个XML文件构建一个xml语料库

来自分类Dev

从语料库中删除非ASCII

Related 相关文章

  1. 1

    如何在R tm包中显示语料库文本?

  2. 2

    使用gsub的语料库中的R tm替代词

  3. 3

    在R tm软件包的term-document矩阵中包括所有标记

  4. 4

    如何将字符向量从R中的tm包转换为DocumentTermMatrix函数的语料库输入?

  5. 5

    R tm软件包vcorpus:将语料库转换为数据帧时出错

  6. 6

    在R中如何不通过语料库/ VCorpus将稀疏或simple_triplet_matrix转换为tm-package文档术语矩阵?

  7. 7

    如何基于元数据过滤R中的tm语料库中的文档?

  8. 8

    如何基于元数据过滤R中的tm语料库中的文档?

  9. 9

    从R中的语料库中删除短语(停用词)?

  10. 10

    R:Quanteda从语料库中删除标签

  11. 11

    如何从 R 中的整个语料库中提取文档?

  12. 12

    从R中的Document-Term-Matrix过滤行/文档

  13. 13

    从R中的Document-Term-Matrix过滤行/文档

  14. 14

    在R中使用tm的语料库功能处理大数据

  15. 15

    在R中,如何计算语料库中的特定单词?

  16. 16

    利用R中JSON文件中存储的文本创建语料库

  17. 17

    在 R 中读取语料库中每个文档的前两行

  18. 18

    tm合并语料库列表

  19. 19

    tm合并语料库列表

  20. 20

    如何将列表转换为R中的语料库?

  21. 21

    将语料库转换为R中的data.frame

  22. 22

    在R中的语料库上删除停用词并降低功能

  23. 23

    在R语料库中搜索所有以“ esque”结尾的单词

  24. 24

    从R中用户定义的语料库中删除停用词

  25. 25

    R中的文本挖掘:创建语料库会创建不寻常的文本

  26. 26

    从R中用户定义的语料库中删除停用词

  27. 27

    使用R在一个语料库中合并两个单词

  28. 28

    R用多个XML文件构建一个xml语料库

  29. 29

    从语料库中删除非ASCII

热门标签

归档