如何在RWeka中实现备份令牌生成器开关?

普拉迪普

我正在使用R-tm-Rweka软件包进行一些文本挖掘。与其在单个单词上构建tf-tdm(这对我的目的而言还不够),我必须提取ngram。我使用@Ben函数TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 3)) tdm <- TermDocumentMatrix(a, control = list(tokenize = TrigramTokenizer))
提取三字组。输出有明显的错误,请参见下文。它拾取4、3和2个词的短语。理想情况下,它应该只选择4词名词短语,并丢弃(3和2词)其余部分。我如何强制执行此解决方案,例如Python NLTK具有备份令牌生成器选项?

抽象策略->this is incorrect>
抽象策略板->incorrect
抽象策略板游戏-> this should be the correct output

强调行政人员
强调行政人员简单
强调行政人员简单注释

非常感谢。

哈克

我认为您与您所做的尝试非常接近。除了您必须了解要告诉Weka您执行的操作是捕获2克和3克令牌之外;Weka_control就是指定的方式。

相反,我建议在不同的令牌生成器中使用不同的令牌大小,并根据您的偏好或决策规则选择或合并结果。

我认为值得一看有关n-gram wordclouds的出色教程

用于n-gram文本挖掘的可靠代码段是:

# QuadgramTokenizer ####
QuadgramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 4, max = 4)

4克

# TrigramTokenizer ####
TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3)

对于3克,当然

# BigramTokenizer ####
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)

2克

通过像这样单独运行不同的克大小而不是设置Weka_control一个范围,您也许可以避免前面的问题

您可以像这样应用令牌生成器:

tdm.ng <- TermDocumentMatrix(ds5.1g, control = list(tokenize = BigramTokenizer))
dtm.ng <- DocumentTermMatrix(ds5.1g, control = list(tokenize = BigramTokenizer))

如果仍然有问题,请提供一个可复制的示例,我将跟进。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在 Rails 中实现条码生成器

来自分类Dev

如何在Lucene / Solr中正确实现我的自定义令牌生成器?

来自分类Dev

如何在Transformers库中截断Bert令牌生成器

来自分类Dev

如何在C ++中创建通用数据令牌生成器?

来自分类Dev

如何在Scheme(Racket或ChezScheme)中实现Python样式的生成器?

来自分类Dev

线性同余生成器LCG如何在c中实现模数2 ^ 64

来自分类Dev

Java-如何在Netbeans gui生成器中将代码实现到GUI中?

来自分类Dev

如何在这个质数生成器中实现一系列数字?

来自分类Dev

如何在生成器中创建生成器 - Python

来自分类Dev

如何实现简单的ID生成器?

来自分类Dev

如何实现$ RANDOM之类的“生成器”?

来自分类Dev

如何在Windows上备份cmake gui的生成器缓存/设置?

来自分类Dev

如何在JavaScript类中编写生成器?

来自分类Dev

如何在Python中返回生成器

来自分类Dev

如何在Word中创建报告生成器

来自分类Dev

如何在python中调用多个生成器

来自分类Dev

如何在CMake中包含外部代码生成器?

来自分类Dev

如何在Python中返回生成器

来自分类Dev

如何在GWT中测试生成器?

来自分类Dev

如何在查询生成器中设置条件?

来自分类Dev

如何在不基于网格的蛇游戏(使用c ++和OpenGL)中实现食物生成器?

来自分类Dev

如何在NER模型上设置空白令牌生成器?

来自分类Dev

如何在创建生成器时而不是在迭代时评估Python生成器中的值?

来自分类Dev

如何从Pytorch中的预训练模型加载保存的令牌生成器

来自分类Dev

如何构建一个简单的令牌生成器

来自分类Dev

如何使用令牌生成器写日期?

来自分类Dev

从Elasticsearch中的CamelCase令牌生成器中排除

来自分类Dev

C / C ++中随机数生成器的实现

来自分类Dev

C / C ++中随机数生成器的实现

Related 相关文章

  1. 1

    如何在 Rails 中实现条码生成器

  2. 2

    如何在Lucene / Solr中正确实现我的自定义令牌生成器?

  3. 3

    如何在Transformers库中截断Bert令牌生成器

  4. 4

    如何在C ++中创建通用数据令牌生成器?

  5. 5

    如何在Scheme(Racket或ChezScheme)中实现Python样式的生成器?

  6. 6

    线性同余生成器LCG如何在c中实现模数2 ^ 64

  7. 7

    Java-如何在Netbeans gui生成器中将代码实现到GUI中?

  8. 8

    如何在这个质数生成器中实现一系列数字?

  9. 9

    如何在生成器中创建生成器 - Python

  10. 10

    如何实现简单的ID生成器?

  11. 11

    如何实现$ RANDOM之类的“生成器”?

  12. 12

    如何在Windows上备份cmake gui的生成器缓存/设置?

  13. 13

    如何在JavaScript类中编写生成器?

  14. 14

    如何在Python中返回生成器

  15. 15

    如何在Word中创建报告生成器

  16. 16

    如何在python中调用多个生成器

  17. 17

    如何在CMake中包含外部代码生成器?

  18. 18

    如何在Python中返回生成器

  19. 19

    如何在GWT中测试生成器?

  20. 20

    如何在查询生成器中设置条件?

  21. 21

    如何在不基于网格的蛇游戏(使用c ++和OpenGL)中实现食物生成器?

  22. 22

    如何在NER模型上设置空白令牌生成器?

  23. 23

    如何在创建生成器时而不是在迭代时评估Python生成器中的值?

  24. 24

    如何从Pytorch中的预训练模型加载保存的令牌生成器

  25. 25

    如何构建一个简单的令牌生成器

  26. 26

    如何使用令牌生成器写日期?

  27. 27

    从Elasticsearch中的CamelCase令牌生成器中排除

  28. 28

    C / C ++中随机数生成器的实现

  29. 29

    C / C ++中随机数生成器的实现

热门标签

归档