如何快速应用 R 中的文档术语矩阵

格里芬·巴里奇

我正在做一个项目,该项目要求我遍历文档术语矩阵,将所有非零值转换为 1 并将零值保持为零。我现在使用的函数需要永远运行,我想帮助优化代码。

我现在的代码是

convert_counts <- function(x) {
                    x <- ifelse(x > 0, 1, 0)
                    x <- factor(x, levels = c(0, 1), 
                    labels = c("No", "Yes"))}

data_exp <- apply(data_dtm, 2, convert_counts)

data_dtm大型文档术语矩阵在哪里

发烧友

您拥有的函数将稀疏矩阵转换为完整字符矩阵。如果你有一个很大的文档术语矩阵,这将导致很长的运行时间和出现内存错误的好机会。如果您利用矩阵的构建方式,可以快速替换稀疏矩阵中的值。稀疏矩阵的值存储在矩阵的v(values) 部分。?slam::simple_triplet_matrix

在稀疏矩阵上使用任何 apply 系列,而不使用旨在处理稀疏矩阵的函数,将把它变成一个普通(密集)矩阵。相应的长时间运行和内存问题。

要在您的情况下更改所有不同于 0 的值,只需使用以下命令:

data_dtm$v[data_dtm$v > 0] <- 1 inspect(data_dtm) # show first 10 columns and rows

这会将所有值替换为 1,并将数据保留为文档术语矩阵(又名 nice 和 sparse)。

根据您的后续数据分析,您确实应该使用稀疏矩阵函数。如果您想将大型文档术语矩阵转换为 data.frame 或 data.table,您很有可能会耗尽内存。

对于任何后续问题,请包括可重现的示例和预期的输出。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在R中附加到文档术语矩阵?

来自分类Dev

R中的文档术语矩阵

来自分类Dev

R中字母的术语文档矩阵

来自分类Dev

在R中创建文档术语矩阵

来自分类Dev

如何使用本机R创建文档术语矩阵

来自分类Dev

如何使用本机R创建文档术语矩阵

来自分类Dev

在R中如何不通过语料库/ VCorpus将稀疏或simple_triplet_matrix转换为tm-package文档术语矩阵?

来自分类Dev

将术语文档矩阵转换为R中的节点/边列表

来自分类Dev

tf-idf 文档术语矩阵和 LDA:R 中的错误消息

来自分类Dev

如何在Python中的术语文档矩阵中使用PCA?

来自分类Dev

R 将数据框转换为术语文档矩阵

来自分类Dev

R-文本挖掘-导入语料库并将文件名保留在文档术语矩阵中

来自分类Dev

R中的(快速)词频矩阵

来自分类Dev

R中的快速计算矩阵

来自分类Dev

如何在scikit-learn中查看tfidf之后的术语文档矩阵的前n个条目

来自分类Dev

R:使用tm和proxy计算距术语文档矩阵的余弦距离

来自分类Dev

R:检查文档术语矩阵导致错误:当前不允许重复索引

来自分类Dev

在 R 中使用 N-Grams 创建文档术语矩阵

来自分类Dev

R中索引矩阵的快速方法

来自分类Dev

快速替换R中矩阵的选定条目

来自分类Dev

R中的快速大矩阵乘法

来自分类Dev

如何从一组文本和一组特定的术语(标签)构建术语文档矩阵?

来自分类Dev

如何创建一个术语矩阵,将与每个文档相关的数值相加?

来自分类Dev

Python如何使用(i,j)项作为术语索引创建文档矩阵

来自分类Dev

如何在python中制作术语文档

来自分类Dev

在R中,如何从不同大小的向量列表中生成类似于文档项对数矩阵的数据帧?

来自分类Dev

在R中,如何从不同大小的向量列表中生成类似于文档项对数矩阵的数据帧?

来自分类Dev

如何使用Lucene5.3获取每个文档中特定术语的术语频率?

来自分类Dev

在R中矩阵的列上应用成对函数

Related 相关文章

  1. 1

    如何在R中附加到文档术语矩阵?

  2. 2

    R中的文档术语矩阵

  3. 3

    R中字母的术语文档矩阵

  4. 4

    在R中创建文档术语矩阵

  5. 5

    如何使用本机R创建文档术语矩阵

  6. 6

    如何使用本机R创建文档术语矩阵

  7. 7

    在R中如何不通过语料库/ VCorpus将稀疏或simple_triplet_matrix转换为tm-package文档术语矩阵?

  8. 8

    将术语文档矩阵转换为R中的节点/边列表

  9. 9

    tf-idf 文档术语矩阵和 LDA:R 中的错误消息

  10. 10

    如何在Python中的术语文档矩阵中使用PCA?

  11. 11

    R 将数据框转换为术语文档矩阵

  12. 12

    R-文本挖掘-导入语料库并将文件名保留在文档术语矩阵中

  13. 13

    R中的(快速)词频矩阵

  14. 14

    R中的快速计算矩阵

  15. 15

    如何在scikit-learn中查看tfidf之后的术语文档矩阵的前n个条目

  16. 16

    R:使用tm和proxy计算距术语文档矩阵的余弦距离

  17. 17

    R:检查文档术语矩阵导致错误:当前不允许重复索引

  18. 18

    在 R 中使用 N-Grams 创建文档术语矩阵

  19. 19

    R中索引矩阵的快速方法

  20. 20

    快速替换R中矩阵的选定条目

  21. 21

    R中的快速大矩阵乘法

  22. 22

    如何从一组文本和一组特定的术语(标签)构建术语文档矩阵?

  23. 23

    如何创建一个术语矩阵,将与每个文档相关的数值相加?

  24. 24

    Python如何使用(i,j)项作为术语索引创建文档矩阵

  25. 25

    如何在python中制作术语文档

  26. 26

    在R中,如何从不同大小的向量列表中生成类似于文档项对数矩阵的数据帧?

  27. 27

    在R中,如何从不同大小的向量列表中生成类似于文档项对数矩阵的数据帧?

  28. 28

    如何使用Lucene5.3获取每个文档中特定术语的术语频率?

  29. 29

    在R中矩阵的列上应用成对函数

热门标签

归档