R tm / qdap-根据术语获取文档

约翰·科恩

我试图弄清楚如何根据可能包含的术语来识别文档(在这种情况下为推文)。

假设我有这个数据框(df),它由Twitter用户的屏幕名称列表和他们的一条推文组成。

> df
     ScreenName tweet                         
[1,] "Guy A"    "one random tweet"            
[2,] "Guy B"    "another random tweet"        
[3,] "Guy C"    "a third random piece of text"

好吧,在这个数据帧中,我想获取包含某个术语的推文(例如“ tweet”),然后将其提取到新的数据帧(df2)中,如下所示:

> df2
     ScreenName tweet                 
[1,] "Guy A"    "one random tweet"    
[2,] "Guy B"    "another random tweet"

我认为必须有一种使用tm或qdap软件包进行此操作的方法。但是找不到任何东西,因此最终陷入了混乱。

清理完主体后,我将其转换为termDocumentMatrix

tdm <- TermDocumentMatrix(corpus, control=list(minWordLength=1))

然后,我确定感兴趣的术语在术语文档矩阵的哪一行中

t <- as.vector(tdm[term,])

子集-如果已多次提及该术语

t.df <- as.data.frame(t)
t.sub <- subset(t.df, t >= 1)

获取文件编号(行号)

t.n <- as.numeric(rownames(t.sub))

创建新的数据框,其中t.tw-仅包括提及条款的推文和-其他推文

t.tw <- tw[t.n,]
t.o <- tw[!1:nrow(tw) %in% t.n, ]

谢谢你的帮助。

如果上述可怕的代码冒犯了任何熟练的R用户,则表示歉意。

泰勒·林克(Tyler Rinker)

为此,我会停留在基础上,并在下面的行中使用该grep函数(如果您已经有了data.frame):

df[grep("tweet", df$tweet), ]

这是您的数据的全部:

df <- read.table(text='ScreenName tweet                         
"Guy A"    "one random tweet"            
"Guy B"    "another random tweet"        
"Guy C"    "a third random piece of text"', header=TRUE)

df[grep("tweet", df$tweet), ]

##   ScreenName                tweet
## 1      Guy A     one random tweet
## 2      Guy B another random tweet

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

R:使用tm和proxy计算距术语文档矩阵的余弦距离

来自分类Dev

术语频率表到tm R包中的DocumentTermMatrix

来自分类Dev

r tm排序操作后提取文档ID

来自分类Dev

在R中使用tm包获取关键字计数

来自分类Dev

在R中如何不通过语料库/ VCorpus将稀疏或simple_triplet_matrix转换为tm-package文档术语矩阵?

来自分类Dev

R:“查找”功能qdap中的“变量名称限制为”

来自分类Dev

将术语文档矩阵转换为tm库支持的术语文档矩阵

来自分类Dev

R tm package and cyrillic text

来自分类Dev

如何基于元数据过滤R中的tm语料库中的文档?

来自分类Dev

使用TM进行R文本挖掘:文档中是否包含罕见的单词

来自分类Dev

如何基于元数据过滤R中的tm语料库中的文档?

来自分类Dev

使用tm检查文档术语矩阵的相应术语(英语中的vocab?)

来自分类Dev

如果R使用库(tm),则PypeR失败

来自分类Dev

R-使用TM分析Tripadvisor内容

来自分类Dev

在tm包R中声明双引号

来自分类Dev

R中的文档术语矩阵

来自分类Dev

R qdap :: mgsub,如何通过正则表达式传递模式?

来自分类Dev

R中的软件包'qdap'中的自定义单词

来自分类Dev

R tm软件包tm.plugin.tags停止工作

来自分类Dev

如何获取最新的tm.detail_notes(对于max(tm.timeslip_date)为tm.detail_notes)?

来自分类Dev

qdap ngram极性字典

来自分类Dev

qdap ngram极性字典

来自分类Dev

如何将多个qdap转换链接在一起以进行R中的文本挖掘/情感(极性)分析

来自分类Dev

如何将具有单列的R数据帧转换为tm的语料库,以使每一行都作为文档?

来自分类Dev

如何将具有单列的R数据帧转换为tm的语料库,以使每一行都作为文档?

来自分类Dev

使用gsub的语料库中的R tm替代词

来自分类Dev

R:使用grep和tm包的部分匹配字典词

来自分类Dev

如何使用tm从R中的DocumentTermMatrix中选择命名列

来自分类Dev

在R中的tm_map(testfile,removeNumbers)中使用Filter?

Related 相关文章

  1. 1

    R:使用tm和proxy计算距术语文档矩阵的余弦距离

  2. 2

    术语频率表到tm R包中的DocumentTermMatrix

  3. 3

    r tm排序操作后提取文档ID

  4. 4

    在R中使用tm包获取关键字计数

  5. 5

    在R中如何不通过语料库/ VCorpus将稀疏或simple_triplet_matrix转换为tm-package文档术语矩阵?

  6. 6

    R:“查找”功能qdap中的“变量名称限制为”

  7. 7

    将术语文档矩阵转换为tm库支持的术语文档矩阵

  8. 8

    R tm package and cyrillic text

  9. 9

    如何基于元数据过滤R中的tm语料库中的文档?

  10. 10

    使用TM进行R文本挖掘:文档中是否包含罕见的单词

  11. 11

    如何基于元数据过滤R中的tm语料库中的文档?

  12. 12

    使用tm检查文档术语矩阵的相应术语(英语中的vocab?)

  13. 13

    如果R使用库(tm),则PypeR失败

  14. 14

    R-使用TM分析Tripadvisor内容

  15. 15

    在tm包R中声明双引号

  16. 16

    R中的文档术语矩阵

  17. 17

    R qdap :: mgsub,如何通过正则表达式传递模式?

  18. 18

    R中的软件包'qdap'中的自定义单词

  19. 19

    R tm软件包tm.plugin.tags停止工作

  20. 20

    如何获取最新的tm.detail_notes(对于max(tm.timeslip_date)为tm.detail_notes)?

  21. 21

    qdap ngram极性字典

  22. 22

    qdap ngram极性字典

  23. 23

    如何将多个qdap转换链接在一起以进行R中的文本挖掘/情感(极性)分析

  24. 24

    如何将具有单列的R数据帧转换为tm的语料库,以使每一行都作为文档?

  25. 25

    如何将具有单列的R数据帧转换为tm的语料库,以使每一行都作为文档?

  26. 26

    使用gsub的语料库中的R tm替代词

  27. 27

    R:使用grep和tm包的部分匹配字典词

  28. 28

    如何使用tm从R中的DocumentTermMatrix中选择命名列

  29. 29

    在R中的tm_map(testfile,removeNumbers)中使用Filter?

热门标签

归档