R中字母的术语文档矩阵

JP_smasher

我想构建一个n-gram的“字母文档矩阵”,它基本上使用最多n个字母的字母序列代替典型的单词。这是我想要实现的简化示例:

> letterDocumentMatrix(c('ea','ab','ca'), c('sea','abs','cab'))
    [,sea] [,abs] [,cab]
[ea,] TRUE   FALSE  FALSE  
[ab,] FALSE  TRUE   TRUE   
[ca,] FALSE  FALSE  TRUE

这种操作有名称吗?是否有任何预建函数可以处理此问题?

最后,我尝试使用grepl进行外部测试,但无济于事:

> outer(c('ea','ab','ca'), c('sea','abs','cab'), grepl)
          [,1]  [,2]  [,3]
     [1,] TRUE  FALSE FALSE  
     [2,] TRUE  FALSE FALSE
     [3,] TRUE  FALSE FALSE  
     Warning message:
     In FUN(X, Y, ...) :
       argument 'pattern' has length > 1 and only the first element will be used

似乎external将第一个参数的整个传递给grepl,而不是一次传递一个条目,导致grepl只搜索第一个术语,在这种情况下为“ a”。

丰富的雕刻

grepl()不能根据其pattern参数矢量化,这就是为什么您没有从获得正确结果的原因outer()这是使用的可能解决方案vapply()

vec <- c("sea", "abs", "cab") ## vector to search
pat <- c("ea", "ab", "ca")    ## patterns we are searching for
"rownames<-"(vapply(pat, grepl, NA[seq_along(pat)], vec, fixed = TRUE), vec)
#        ea    ab    ca
# sea  TRUE FALSE FALSE
# abs FALSE  TRUE FALSE
# cab FALSE  TRUE  TRUE

显然,这会导致您想要的内容转置。要获得所需的矩阵,我们可以使用lapply()rbind()结果,然后设置名称。

xx <- do.call(rbind, lapply(pat, grepl, x = vec, fixed = TRUE))
dimnames(xx) <- list(pat, vec)
#      sea   abs   cab
# ea  TRUE FALSE FALSE
# ab FALSE  TRUE  TRUE
# ca FALSE FALSE  TRUE

我想说的使用t()vapply()结果进行转它,但它可以在大型矩阵缓慢。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用本机R创建文档术语矩阵

来自分类Dev

如何从一组文本和一组特定的术语(标签)构建术语文档矩阵?

来自分类Dev

如何在scikit-learn中查看tfidf之后的术语文档矩阵的前n个条目

来自分类Dev

将术语文档矩阵转换为R中的节点/边列表

来自分类Dev

R-文本挖掘-导入语料库并将文件名保留在文档术语矩阵中

来自分类Dev

将术语文档矩阵传递给Gensim LDA模型

来自分类Dev

在R中如何不通过语料库/ VCorpus将稀疏或simple_triplet_matrix转换为tm-package文档术语矩阵?

来自分类Dev

大文档术语矩阵-计算文档的字符数时出错

来自分类Dev

R中的文档术语矩阵

来自分类Dev

R:使用tm和proxy计算距术语文档矩阵的余弦距离

来自分类Dev

从ElasticSearch索引在Python中创建术语文档矩阵

来自分类Dev

Python:从列表创建术语文档矩阵

来自分类Dev

将包含行名,列名和频率的pandas df转换为术语文档矩阵

来自分类Dev

如何在R中附加到文档术语矩阵?

来自分类Dev

如何在Python中的术语文档矩阵中使用PCA?

来自分类Dev

如何使用本机R创建文档术语矩阵

来自分类Dev

使用特定标记(以及所有其他标记)构建术语文档矩阵

来自分类Dev

在R中创建文档术语矩阵

来自分类Dev

文本分析:术语文档矩阵之后是什么?

来自分类Dev

使用tm检查文档术语矩阵的相应术语(英语中的vocab?)

来自分类Dev

将术语文档矩阵转换为tm库支持的术语文档矩阵

来自分类Dev

整洁的文本:从以下术语文档矩阵计算 Zipf 定律

来自分类Dev

tf-idf 文档术语矩阵和 LDA:R 中的错误消息

来自分类Dev

R:检查文档术语矩阵导致错误:当前不允许重复索引

来自分类Dev

将大文档术语文档矩阵转换为矩阵

来自分类Dev

如何在python中制作术语文档

来自分类Dev

在 R 中使用 N-Grams 创建文档术语矩阵

来自分类Dev

如何快速应用 R 中的文档术语矩阵

来自分类Dev

R 将数据框转换为术语文档矩阵

Related 相关文章

  1. 1

    如何使用本机R创建文档术语矩阵

  2. 2

    如何从一组文本和一组特定的术语(标签)构建术语文档矩阵?

  3. 3

    如何在scikit-learn中查看tfidf之后的术语文档矩阵的前n个条目

  4. 4

    将术语文档矩阵转换为R中的节点/边列表

  5. 5

    R-文本挖掘-导入语料库并将文件名保留在文档术语矩阵中

  6. 6

    将术语文档矩阵传递给Gensim LDA模型

  7. 7

    在R中如何不通过语料库/ VCorpus将稀疏或simple_triplet_matrix转换为tm-package文档术语矩阵?

  8. 8

    大文档术语矩阵-计算文档的字符数时出错

  9. 9

    R中的文档术语矩阵

  10. 10

    R:使用tm和proxy计算距术语文档矩阵的余弦距离

  11. 11

    从ElasticSearch索引在Python中创建术语文档矩阵

  12. 12

    Python:从列表创建术语文档矩阵

  13. 13

    将包含行名,列名和频率的pandas df转换为术语文档矩阵

  14. 14

    如何在R中附加到文档术语矩阵?

  15. 15

    如何在Python中的术语文档矩阵中使用PCA?

  16. 16

    如何使用本机R创建文档术语矩阵

  17. 17

    使用特定标记(以及所有其他标记)构建术语文档矩阵

  18. 18

    在R中创建文档术语矩阵

  19. 19

    文本分析:术语文档矩阵之后是什么?

  20. 20

    使用tm检查文档术语矩阵的相应术语(英语中的vocab?)

  21. 21

    将术语文档矩阵转换为tm库支持的术语文档矩阵

  22. 22

    整洁的文本:从以下术语文档矩阵计算 Zipf 定律

  23. 23

    tf-idf 文档术语矩阵和 LDA:R 中的错误消息

  24. 24

    R:检查文档术语矩阵导致错误:当前不允许重复索引

  25. 25

    将大文档术语文档矩阵转换为矩阵

  26. 26

    如何在python中制作术语文档

  27. 27

    在 R 中使用 N-Grams 创建文档术语矩阵

  28. 28

    如何快速应用 R 中的文档术语矩阵

  29. 29

    R 将数据框转换为术语文档矩阵

热门标签

归档