在R中的tm_map(testfile,removeNumbers)中使用Filter?

阿尼什

我正在使用tm_map(testfile,removeNumbers)删除文本文件的编号。但是,我需要保留ipv4和ipv6等单词附带的数字。如何使用removeNumbers函数删除其他数字,但保留ipv4和ipv6随附的数字?

这是我使用的代码:

test.txt = "this is a test file with numbers 1,2 and 3.
              The internet protocals ipv4 and ipv6"

library(tm)

test <- Corpus(DirSource('C:test'), readerControl = list(reader = readPlain))
test <- tm_map(test, removeNumbers)

inspect(test[1])

输出:

$test.txt

this is a test file with numbers , and . The internet protocals ipv and ipv
研究

removeNumbers将删除任何数字。您可以这样获得其代码:

getS3method("removeNumbers","PlainTextDocument")
function (x) 
gsub("[[:digit:]]+", "", x)

您应该创建一个新函数来删除“单独的”数字或空格后的数字。

remove_alone_nbr <- 
function (x) 
  gsub('\\s*(?<!\\B|-)\\d+(?!\\B|-)\\s*', "", x,perl=TRUE)

然后,如果您对其进行测试:

inspect(tm_map(Corpus(VectorSource(test.txt)), remove_alone_nbr))

你得到 :

this is a test file with numbers,and.
              The internet protocals ipv4 and ipv6

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在Mac上的R 3.0.1中,tm_map具有parallel :: mclapply错误

来自分类Dev

函数tm :: tm_map遇到错误

来自分类Dev

如何使用tm_map将元数据添加到tm Corpus对象

来自分类Dev

应用tm_map时tm丢失元数据

来自分类Dev

应用tm_map时tm丢失元数据

来自分类Dev

如何将tm_map()输出保存到csv文件中?

来自分类Dev

大文本语料库打破了tm_map

来自分类Dev

tm_map:可以将removewords函数与我自己的停用词一起注册为txt文件使用吗?

来自分类Dev

用rJava导入的静态Java函数不适用于tm_map()

来自分类Dev

在R中使用tm包获取关键字计数

来自分类Dev

在R中使用map()rowise

来自分类Dev

使用gsub的语料库中的R tm替代词

来自分类Dev

如何使用tm从R中的DocumentTermMatrix中选择命名列

来自分类Dev

使用bigrams在R中带有tm包的LDA

来自分类Dev

在R中使用tm的语料库功能处理大数据

来自分类Dev

在R中使用LDA和tm进行文本分析

来自分类Dev

在R中使用tm包来阻止单词不能正常工作?

来自分类Dev

在R中使用LDA和tm进行文本分析

来自分类Dev

如何在purrr :: map中使用dplyr :: filter

来自分类Dev

R filter_at中的starts_with错误(必须在* selecting *函数中使用starts_with())。

来自分类Dev

理解在 Scala 中使用 map 中的方法

来自分类Dev

在R中的mapproj库中使用map函数时,如何调整状态的大小

来自分类Dev

列表中的渲染列表(在Map中使用Map)

来自分类Dev

在tm包R中声明双引号

来自分类Dev

如果R使用库(tm),则PypeR失败

来自分类Dev

R-使用TM分析Tripadvisor内容

来自分类Dev

使用TM进行R文本挖掘:文档中是否包含罕见的单词

来自分类Dev

tm中使用的值1900是否定义为符号?

来自分类Dev

在filter_at()中使用if

Related 相关文章

热门标签

归档