R中带有tm包的计数器ngram

罗科

我使用R中的对象和字典documentTermMatrix创建了文档中单词出现频率的脚本。该脚本适用于单个单词,而不适用于复合单词es。“ foo”“ bar”“ foo bar”

这是代码

require(tm)
my.docs <- c("foo bar word1 word2")
myCorpus <- Corpus(VectorSource(my.docs))
inspect(DocumentTermMatrix(myCorpus,list(dictionary = c("foo","bar","foo bar"))))

但是结果是

Terms

Docs bar foo  foo bar

   1   1   1        0

我将不得不找到一个“ foo bar” = 1

我怎样才能解决这个问题?

耶洛华德

问题是DocummentTermMatrix(...)默认情况下在分词时标记化。您至少需要二元组。

相信这篇文章的基本方法。

library(tm)
library(RWeka)
my.docs <- c("foo bar word1 word2")
myCorpus <- Corpus(VectorSource(my.docs))
myDict   <- c("foo","bar","foo bar")
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 1, max = 2))
inspect(DocumentTermMatrix(myCorpus, control=list(tokenize=BigramTokenizer,
                                                  dictionary=myDict)))
# <<DocumentTermMatrix (documents: 1, terms: 3)>>
# ...
#     Terms
# Docs bar foo foo bar
#    1   1   1       1

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用bigrams在R中带有tm包的LDA

来自分类Dev

在C中使用带有计数器的链表进行数据包嗅探

来自分类Dev

R foreach函数找不到带有源函数的计数器

来自分类Dev

使用COPY在Cassandra中的带有计数器的表中导入csv

来自分类Dev

Verilog中的纹波进位计数器,带有4个模块和x个输出

来自分类Dev

根据WordPress中带有计数器的帖子数量添加图像大小

来自分类Dev

在可编辑的 DIV 中带有换行符的 JQuery 字符计数器

来自分类Dev

在Javascript闭包中捕获计数器值

来自分类Dev

带有大数据的Python集合计数器

来自分类Dev

带有jQuery动画的setInterval计数器

来自分类Dev

需要带有计数器的按键按钮

来自分类Dev

带有For计数器的复选框名称

来自分类Dev

带有getche()函数的C ++短语计数器

来自分类Dev

带有单击按钮的增量计数器

来自分类Dev

需要带有计数器的按键按钮

来自分类Dev

数据表,带有计数器列打印

来自分类Dev

RxJava - 带有 x 的 y 计数器

来自分类Dev

Python 计数器/带有循环的 Prob

来自分类Dev

根据python pandas中的现有计数器添加新计数器

来自分类Dev

JS 中的 Clicker 游戏,带有许多可点击的图像(每个都有自己的计数器)

来自分类Dev

如何在mvc中的所有站点上添加带有行编号的计数器

来自分类Dev

用计数器扩展参数包

来自分类Dev

用计数器扩展参数包

来自分类Dev

如何将带有计数器列的CSV文件加载到Cassandra CQL3表中

来自分类Dev

如何将带有计数器列的CSV文件加载到Cassandra CQL3表中

来自分类Dev

Python中的计数器

来自分类Dev

我如何在xquery中拥有计数器?

来自分类Dev

python中的计数器未显示所有单词

来自分类Dev

内联python中没有计数器吗?

Related 相关文章

热门标签

归档