使用bigrams在R中带有tm包的LDA

debugcn 发表于 Dev

杜拉

我每行都有一个csv作为文档。我需要对此执行LDA。我有以下代码：

library(tm)
library(SnowballC)
library(topicmodels)
library(RWeka)

X = read.csv('doc.csv',sep=",",quote="\"",stringsAsFactors=FALSE)

corpus <- Corpus(VectorSource(X))
corpus <- tm_map(tm_map(tm_map(corpus, stripWhitespace), tolower), stemDocument)
corpus <- tm_map(corpus, PlainTextDocument)
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
dtm <- DocumentTermMatrix(corpus, control = list(tokenize=BigramTokenizer,weighting=weightTfIdf))

这时检查dtm对象给出

<<DocumentTermMatrix (documents: 52, terms: 477)>>
Non-/sparse entries: 492/24312
Sparsity           : 98%
Maximal term length: 20
Weighting          : term frequency - inverse document frequency (normalized) (tf-idf)

现在，我将在此基础上执行LDA

rowTotals <- apply(dtm , 1, sum) 
dtm.new   <- dtm[rowTotals> 0, ]
g = LDA(dtm.new,10,method = 'VEM',control=NULL,model=NULL)

我收到以下错误

Error in LDA(dtm.new, 10, method = "VEM", control = NULL, model = NULL) : 
  The DocumentTermMatrix needs to have a term frequency weighting

文档术语矩阵显然得到了加权。我究竟做错了什么？

请帮助。

彼得

文档术语矩阵需要具有术语频率加权：

DocumentTermMatrix(corpus, 
                   control = list(tokenize = BigramTokenizer, 
                             weighting = weightTf))

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-11

我来说两句

0条评论

登录后参与评论

来自分类Dev

R中带有tm包的计数器ngram

来自分类Dev

在tm包R中声明双引号

来自分类Dev

在R tm软件包的term-document矩阵中包括所有标记

来自分类Dev

tm包：矩阵中而不是R中的列表的findAssocs（）输出

来自分类Dev

tm包：矩阵中而不是R中的列表的findAssocs（）输出

来自分类Dev

如何进行R中主题建模的数据准备（topicmodels，lda，tm）？

来自分类Dev

R中带有Formattable包的按条件排列

来自分类Dev

在R中使用LDA和tm进行文本分析

来自分类Dev

在R中使用LDA和tm进行文本分析

来自分类Dev

修改R's TM程序包中的停用词

来自分类Dev

R：在新闻组数据中读取tm包

来自分类Dev

术语频率表到tm R包中的DocumentTermMatrix

来自分类Dev

R：使用grep和tm包的部分匹配字典词

来自分类Dev

在R中使用tm包获取关键字计数

来自分类Dev

R：使用grep和tm包的部分匹配字典词

来自分类Dev

如何使用r中的ROCR软件包绘制ROC曲线仅带有分类列联表

来自分类Dev

如何使用R中的插入符号包训练带有偏移项的glmnet模型（泊松族）？

来自分类Dev

当使用带有Rc的闭包时，无法借用Fn闭包中捕获的外部变量

来自分类Dev

在带有data.table包的R中，如何使R完全显示数据表？

来自分类Dev

使用带有包的 Anaconda 安装 XLWings

来自分类Dev

在带有covmat选项的svyby中使用带有NA数据的R Survey软件包的问题

来自分类Dev

如何在R的topicmodels包中使用LDA函数重现准确的结果

来自分类Dev

如何在Eclipse中调试R包（带有C和C ++代码）？

来自分类Dev

R软件包：Debian中带有gdb的C函数的断点设置（测试）

来自分类Dev

带有rugarch包的R中的GARCH参数估计和预测

来自分类Dev

R中带有按顺序返回.csv文件的闭包的问题

来自分类Dev

并行 R 包中的 foreach() 如何处理带有中断的重复循环？

来自分类Dev

如何使用带有R star包的多边形从栅格中提取值？

来自分类Dev

尝试使用带有R的eurostat包创建映射的内存分配错误

Related 相关文章

文章

使用bigrams在R中带有tm包的LDA

使用bigrams在R中带有tm包的LDA

R中带有tm包的计数器ngram

在tm包R中声明双引号

在R tm软件包的term-document矩阵中包括所有标记

tm包：矩阵中而不是R中的列表的findAssocs（）输出

tm包：矩阵中而不是R中的列表的findAssocs（）输出

如何进行R中主题建模的数据准备（topicmodels，lda，tm）？

R中带有Formattable包的按条件排列

在R中使用LDA和tm进行文本分析

在R中使用LDA和tm进行文本分析

修改R's TM程序包中的停用词

R：在新闻组数据中读取tm包

术语频率表到tm R包中的DocumentTermMatrix

R：使用grep和tm包的部分匹配字典词

在R中使用tm包获取关键字计数

R：使用grep和tm包的部分匹配字典词

如何使用r中的ROCR软件包绘制ROC曲线*仅带有分类列联表*

如何使用R中的插入符号包训练带有偏移项的glmnet模型（泊松族）？

当使用带有Rc的闭包时，无法借用Fn闭包中捕获的外部变量

在带有data.table包的R中，如何使R完全显示数据表？

使用带有包的 Anaconda 安装 XLWings

在带有covmat选项的svyby中使用带有NA数据的R Survey软件包的问题

如何在R的topicmodels包中使用LDA函数重现准确的结果

如何在Eclipse中调试R包（带有C和C ++代码）？

R软件包：Debian中带有gdb的C函数的断点设置（测试）

带有rugarch包的R中的GARCH参数估计和预测

R中带有按顺序返回.csv文件的闭包的问题

并行 R 包中的 foreach() 如何处理带有中断的重复循环？

如何使用带有R star包的多边形从栅格中提取值？

尝试使用带有R的eurostat包创建映射的内存分配错误

如何使用r中的ROCR软件包绘制ROC曲线仅带有分类列联表