tf-idf 文档术语矩阵和 LDA:R 中的错误消息

沙查万

我们可以将 tf-idf 文档术语矩阵输入到潜在狄利克雷分配 (LDA) 中吗?如果是,如何?

它在我的情况下不起作用,并且 LDA 函数需要“词频”文档词矩阵。

谢谢

(我尽可能简洁地提出问题。因此,如果您需要更多详细信息,我可以添加

##########################################################################
                           TF-IDF Document matrix construction
##########################################################################    

> DTM_tfidf <-DocumentTermMatrix(corpora,control = list(weighting = 
function(x)+   weightTfIdf(x, normalize = FALSE)))
> str(DTM_tfidf)
List of 6
$ i       : int [1:4466] 1 1 1 1 1 1 1 1 1 1 ...
$ j       : int [1:4466] 6 10 22 26 28 36 39 41 47 48 ...
$ v       : num [1:4466] 6 2.09 1.05 3.19 2.19 ...
$ nrow    : int 64
$ ncol    : int 297
$ dimnames:List of 2
  ..$ Docs : chr [1:64] "1" "2" "3" "4" ...
  ..$ Terms: chr [1:297] "accommod" "account" "achiev" "act" ...
- attr(*, "class")= chr [1:2] "DocumentTermMatrix" "simple_triplet_matrix"
- attr(*, "weighting")= chr [1:2] "term frequency - inverse document 
frequency" "tf-idf"

##########################################################################
                           LDA section
##########################################################################

> LDA_results <-LDA(DTM_tfidf,k, method="Gibbs", control=list(nstart=nstart,
  +                                seed = seed, best=best, 
  +                                burnin = burnin, iter = iter, thin=thin))

##########################################################################
                           Error messages
##########################################################################
  Error in LDA(DTM_tfidf, k, method = "Gibbs", control = list(nstart = 
  nstart,  : 
  The DocumentTermMatrix needs to have a term frequency weighting
朱莉娅·西尔格

如果您使用 topicmodels 包浏览 LDA 主题建模的文档,例如通过?LDA在 R 控制台中键入,您将看到此建模过程需要频率加权的文档项矩阵,而不是 tf-idf 加权。

"Object of class "DocumentTermMatrix" with term-frequency weighting or an object coercible..."

所以答案是否定的,你不能在这个函数中直接使用 tf-idf-weighted DTM。如果您已经有一个 tf-idf-weighted DTM,您可以使用它来转换它tm::weightTf()以获得必要的权重。如果您从头开始构建文档术语矩阵,则不要通过 tf-idf 对其进行加权。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

R和手计算中的不同tf-idf值

来自分类Dev

从TF-IDF到Spark,Pyspark中的LDA群集

来自分类Dev

如何使用Whoosh获取文档中术语的tf-idf分数和bm25f分数?

来自分类Dev

什么是 tf-idf 中的文档和语料库?

来自分类Dev

TF IDF分数“错误”

来自分类Dev

R中的文档术语矩阵

来自分类Dev

Python,TF-IDF中的常规矩阵计算

来自分类Dev

在TF-IDF中结合Unigram和Bigram

来自分类Dev

如何使TF-IDF矩阵密集?

来自分类Dev

在TF-IDF矩阵上计算SVD

来自分类Dev

R中字母的术语文档矩阵

来自分类Dev

在R中创建文档术语矩阵

来自分类Dev

在tf-idf中,为什么我们要按文档频率而不是语料库中所有文档的平均术语频率进行归一化?

来自分类Dev

Greemlin中的TF-IDF算法

来自分类Dev

sklearn:TFIDF转换器:如何获取文档中给定单词的tf-idf值

来自分类Dev

TF-IDF和非TF-IDF功能的准确性

来自分类Dev

计算字符串和TF-IDF中字母的频率

来自分类Dev

如何在R中附加到文档术语矩阵?

来自分类Dev

如何快速应用 R 中的文档术语矩阵

来自分类Dev

如何为要分类的单个新文档计算TF * IDF?

来自分类Dev

将每个文档转换为基于TF -IDF的向量

来自分类Dev

如何为要分类的单个新文档计算TF * IDF?

来自分类Dev

当文档由两列定义时获取 tf idf

来自分类Dev

TF IDF上的截断SVD给出值错误数组太大

来自分类Dev

使用TF-IDF和余弦相似度的匹配短语

来自分类Dev

如何从sklearn中的TF * IDF值获取字数

来自分类Dev

将Tf-idf用作CNN模型中的功能

来自分类Dev

使用TF-IDF在K均值中绘制质心

来自分类Dev

CSV文件中字符串的TF-IDF