我想计算一个语料库作者之间的余弦距离。让我们看一看20个文档的语料库。
require(tm)
data("crude")
length(crude)
# [1] 20
我想找出这20个文档之间的余弦距离(相似度)。我用创建一个术语文档矩阵
tdm <- TermDocumentMatrix(crude,
control = list(removePunctuation = TRUE,
stopwords = TRUE))
那么我将它转化成一个矩阵,它传递给dist()
了的代理包
tdm <- as.matrix(tdm)
require(proxy)
cosine_dist_mat <- as.matrix(dist(t(tdm), method = "cosine"))
最后,我删除余弦距离矩阵的对角线(因为我对文档与其自身之间的距离不感兴趣),并计算出每个文档与语料库的其他19个文档之间的平均距离
diag(cosine_dist_mat) <- NA
cosine_dist <- apply(cosine_dist_mat, 2, mean, na.rm=TRUE)
cosine_dist
# 127 144 191 194
# 0.6728505 0.6788326 0.7808791 0.8003223
# 211 236 237 242
# 0.8218699 0.6702084 0.8752164 0.7553570
# 246 248 273 349
# 0.8205872 0.6495110 0.7064158 0.7494145
# 352 353 368 489
# 0.6972964 0.7134836 0.8352642 0.7214411
# 502 543 704 708
# 0.7294907 0.7170188 0.8522494 0.8726240
到目前为止一切都很好(使用小型语料库)。问题在于,这种方法不能很好地用于较大的文档集。一次,由于两次调用as.matrix()
,将tmtdm
从tm传递给proxy并最终计算平均值,似乎效率低下。
是否有可能构想出更智能的方法来获得相同的结果?
由于tm
的术语文档矩阵只是slam
软件包中的稀疏“简单三元组矩阵” ,因此您可以使用那里的函数直接根据余弦相似度的定义来计算距离:
library(slam)
cosine_dist_mat <- 1 - crossprod_simple_triplet_matrix(tdm)/(sqrt(col_sums(tdm^2) %*% t(col_sums(tdm^2))))
这利用了稀疏矩阵乘法。在我手中,一个tdm在220个文档中具有2963个术语,稀疏度为97%,仅用了几秒钟。
我没有对此进行分析,因此我不知道它的速度是否比快proxy::dist()
。
注:这工作,你应该不是强迫的TDM到常规基质,即不做tdm <- as.matrix(tdm)
。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句