使用bigrams在R中带有tm包的LDA

杜拉

我每行都有一个csv作为文档。我需要对此执行LDA。我有以下代码:

library(tm)
library(SnowballC)
library(topicmodels)
library(RWeka)

X = read.csv('doc.csv',sep=",",quote="\"",stringsAsFactors=FALSE)

corpus <- Corpus(VectorSource(X))
corpus <- tm_map(tm_map(tm_map(corpus, stripWhitespace), tolower), stemDocument)
corpus <- tm_map(corpus, PlainTextDocument)
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
dtm <- DocumentTermMatrix(corpus, control = list(tokenize=BigramTokenizer,weighting=weightTfIdf))

这时检查dtm对象给出

<<DocumentTermMatrix (documents: 52, terms: 477)>>
Non-/sparse entries: 492/24312
Sparsity           : 98%
Maximal term length: 20
Weighting          : term frequency - inverse document frequency (normalized) (tf-idf)

现在,我将在此基础上执行LDA

rowTotals <- apply(dtm , 1, sum) 
dtm.new   <- dtm[rowTotals> 0, ]
g = LDA(dtm.new,10,method = 'VEM',control=NULL,model=NULL)

我收到以下错误

Error in LDA(dtm.new, 10, method = "VEM", control = NULL, model = NULL) : 
  The DocumentTermMatrix needs to have a term frequency weighting

文档术语矩阵显然得到了加权。我究竟做错了什么 ?

请帮助。

彼得

文档术语矩阵需要具有术语频率加权:

DocumentTermMatrix(corpus, 
                   control = list(tokenize = BigramTokenizer, 
                             weighting = weightTf))

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

R中带有tm包的计数器ngram

来自分类Dev

在tm包R中声明双引号

来自分类Dev

在R tm软件包的term-document矩阵中包括所有标记

来自分类Dev

tm包:矩阵中而不是R中的列表的findAssocs()输出

来自分类Dev

tm包:矩阵中而不是R中的列表的findAssocs()输出

来自分类Dev

如何进行R中主题建模的数据准备(topicmodels,lda,tm)?

来自分类Dev

R中带有Formattable包的按条件排列

来自分类Dev

在R中使用LDA和tm进行文本分析

来自分类Dev

在R中使用LDA和tm进行文本分析

来自分类Dev

修改R's TM程序包中的停用词

来自分类Dev

R:在新闻组数据中读取tm包

来自分类Dev

术语频率表到tm R包中的DocumentTermMatrix

来自分类Dev

R:使用grep和tm包的部分匹配字典词

来自分类Dev

在R中使用tm包获取关键字计数

来自分类Dev

R:使用grep和tm包的部分匹配字典词

来自分类Dev

如何使用r中的ROCR软件包绘制ROC曲线*仅带有分类列联表*

来自分类Dev

如何使用R中的插入符号包训练带有偏移项的glmnet模型(泊松族)?

来自分类Dev

当使用带有Rc的闭包时,无法借用Fn闭包中捕获的外部变量

来自分类Dev

在带有data.table包的R中,如何使R完全显示数据表?

来自分类Dev

使用带有包的 Anaconda 安装 XLWings

来自分类Dev

在带有covmat选项的svyby中使用带有NA数据的R Survey软件包的问题

来自分类Dev

如何在R的topicmodels包中使用LDA函数重现准确的结果

来自分类Dev

如何在Eclipse中调试R包(带有C和C ++代码)?

来自分类Dev

R软件包:Debian中带有gdb的C函数的断点设置(测试)

来自分类Dev

带有rugarch包的R中的GARCH参数估计和预测

来自分类Dev

R中带有按顺序返回.csv文件的闭包的问题

来自分类Dev

并行 R 包中的 foreach() 如何处理带有中断的重复循环?

来自分类Dev

如何使用带有R star包的多边形从栅格中提取值?

来自分类Dev

尝试使用带有R的eurostat包创建映射的内存分配错误

Related 相关文章

  1. 1

    R中带有tm包的计数器ngram

  2. 2

    在tm包R中声明双引号

  3. 3

    在R tm软件包的term-document矩阵中包括所有标记

  4. 4

    tm包:矩阵中而不是R中的列表的findAssocs()输出

  5. 5

    tm包:矩阵中而不是R中的列表的findAssocs()输出

  6. 6

    如何进行R中主题建模的数据准备(topicmodels,lda,tm)?

  7. 7

    R中带有Formattable包的按条件排列

  8. 8

    在R中使用LDA和tm进行文本分析

  9. 9

    在R中使用LDA和tm进行文本分析

  10. 10

    修改R's TM程序包中的停用词

  11. 11

    R:在新闻组数据中读取tm包

  12. 12

    术语频率表到tm R包中的DocumentTermMatrix

  13. 13

    R:使用grep和tm包的部分匹配字典词

  14. 14

    在R中使用tm包获取关键字计数

  15. 15

    R:使用grep和tm包的部分匹配字典词

  16. 16

    如何使用r中的ROCR软件包绘制ROC曲线*仅带有分类列联表*

  17. 17

    如何使用R中的插入符号包训练带有偏移项的glmnet模型(泊松族)?

  18. 18

    当使用带有Rc的闭包时,无法借用Fn闭包中捕获的外部变量

  19. 19

    在带有data.table包的R中,如何使R完全显示数据表?

  20. 20

    使用带有包的 Anaconda 安装 XLWings

  21. 21

    在带有covmat选项的svyby中使用带有NA数据的R Survey软件包的问题

  22. 22

    如何在R的topicmodels包中使用LDA函数重现准确的结果

  23. 23

    如何在Eclipse中调试R包(带有C和C ++代码)?

  24. 24

    R软件包:Debian中带有gdb的C函数的断点设置(测试)

  25. 25

    带有rugarch包的R中的GARCH参数估计和预测

  26. 26

    R中带有按顺序返回.csv文件的闭包的问题

  27. 27

    并行 R 包中的 foreach() 如何处理带有中断的重复循环?

  28. 28

    如何使用带有R star包的多边形从栅格中提取值?

  29. 29

    尝试使用带有R的eurostat包创建映射的内存分配错误

热门标签

归档