如何快速应用 R 中的文档术语矩阵

debugcn 发表于 Dev

格里芬·巴里奇

我正在做一个项目，该项目要求我遍历文档术语矩阵，将所有非零值转换为 1 并将零值保持为零。我现在使用的函数需要永远运行，我想帮助优化代码。

我现在的代码是

convert_counts <- function(x) {
                    x <- ifelse(x > 0, 1, 0)
                    x <- factor(x, levels = c(0, 1), 
                    labels = c("No", "Yes"))}

data_exp <- apply(data_dtm, 2, convert_counts)

data_dtm大型文档术语矩阵在哪里。

发烧友

您拥有的函数将稀疏矩阵转换为完整字符矩阵。如果你有一个很大的文档术语矩阵，这将导致很长的运行时间和出现内存错误的好机会。如果您利用矩阵的构建方式，可以快速替换稀疏矩阵中的值。稀疏矩阵的值存储在矩阵的v(values) 部分。见?slam::simple_triplet_matrix。

在稀疏矩阵上使用任何 apply 系列，而不使用旨在处理稀疏矩阵的函数，将把它变成一个普通（密集）矩阵。相应的长时间运行和内存问题。

要在您的情况下更改所有不同于 0 的值，只需使用以下命令：

data_dtm$v[data_dtm$v > 0] <- 1 inspect(data_dtm) # show first 10 columns and rows

这会将所有值替换为 1，并将数据保留为文档术语矩阵（又名 nice 和 sparse）。

根据您的后续数据分析，您确实应该使用稀疏矩阵函数。如果您想将大型文档术语矩阵转换为 data.frame 或 data.table，您很有可能会耗尽内存。

对于任何后续问题，请包括可重现的示例和预期的输出。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-22

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何在R中附加到文档术语矩阵？

来自分类Dev

R中的文档术语矩阵

来自分类Dev

R中字母的术语文档矩阵

来自分类Dev

在R中创建文档术语矩阵

来自分类Dev

如何使用本机R创建文档术语矩阵

来自分类Dev

如何使用本机R创建文档术语矩阵

来自分类Dev

在R中如何不通过语料库/ VCorpus将稀疏或simple_triplet_matrix转换为tm-package文档术语矩阵？

来自分类Dev

将术语文档矩阵转换为R中的节点/边列表

来自分类Dev

tf-idf 文档术语矩阵和 LDA：R 中的错误消息

来自分类Dev

如何在Python中的术语文档矩阵中使用PCA？

来自分类Dev

R 将数据框转换为术语文档矩阵

来自分类Dev

R-文本挖掘-导入语料库并将文件名保留在文档术语矩阵中

来自分类Dev

R中的（快速）词频矩阵

来自分类Dev

R中的快速计算矩阵

来自分类Dev

如何在scikit-learn中查看tfidf之后的术语文档矩阵的前n个条目

来自分类Dev

R：使用tm和proxy计算距术语文档矩阵的余弦距离

来自分类Dev

R：检查文档术语矩阵导致错误：当前不允许重复索引

来自分类Dev

在 R 中使用 N-Grams 创建文档术语矩阵

来自分类Dev

R中索引矩阵的快速方法

来自分类Dev

快速替换R中矩阵的选定条目

来自分类Dev

R中的快速大矩阵乘法

来自分类Dev

如何从一组文本和一组特定的术语（标签）构建术语文档矩阵？

来自分类Dev

如何创建一个术语矩阵，将与每个文档相关的数值相加？

来自分类Dev

Python如何使用（i，j）项作为术语索引创建文档矩阵

来自分类Dev

如何在python中制作术语文档

来自分类Dev

在R中，如何从不同大小的向量列表中生成类似于文档项对数矩阵的数据帧？

来自分类Dev

在R中，如何从不同大小的向量列表中生成类似于文档项对数矩阵的数据帧？

来自分类Dev

如何使用Lucene5.3获取每个文档中特定术语的术语频率？

来自分类Dev

在R中矩阵的列上应用成对函数

Related 相关文章

文章