如何在R tm包中显示语料库文本?

阿兹雷尔

我是R和tm包的全新用户,所以请原谅我的愚蠢问题;-)如何在R tm包中显示纯文本语料库的文本?

我在语料库中加载了一个包含323个纯文本文件的语料库:

 src <- DirSource("Korpora/technologie")
corpus <- Corpus(src)

但是当我用以下方式调用语料库时:

corpus[[1]]

我总是得到这样的输出,而不是语料库文本本身:

<<PlainTextDocument>>
Metadata:  7
Content:  chars: 144
Content:  chars: 141
Content:  chars: 224
Content:  chars: 75
Content:  chars: 105

如何显示语料库的文本?

谢谢!

UPDATE可重现的示例:我已经使用内置示例文本进行了尝试:

> data("crude")
> crude
<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 20
> crude[1]
<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 1
> crude[[1]]
<<PlainTextDocument>>
Metadata:  15
Content:  chars: 527

如何打印文档的文本?

更新2:会话信息:

> sessionInfo()
R version 3.1.3 (2015-03-09)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1

locale:
[1] LC_COLLATE=German_Germany.1252  LC_CTYPE=German_Germany.1252   
[3] LC_MONETARY=German_Germany.1252 LC_NUMERIC=C                   
[5] LC_TIME=German_Germany.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] tm_0.6-1  NLP_0.1-7

loaded via a namespace (and not attached):
[1] parallel_3.1.3 slam_0.1-32    tools_3.1.3   
分析僧侣

您可以尝试将语料库文本转换为数据框,然后从数据框本身访问所需的文本。我以内置样本数据“ crude”(来自tm包)为例。

data("crude")
dataframe<-data.frame(text=unlist(sapply(crude, `[`, "content")), stringsAsFactors=F)

dataframe[1,]
[1] "Diamond Shamrock Corp said that\neffective today it had cut its contract prices for crude oil by\n1.50 dlrs a barrel.\n    The reduction brings its posted price for West Texas\nIntermediate to 16.00 dlrs a barrel, the copany said.\n    \"The price reduction today was made in the light of falling\noil product prices and a weak crude oil market,\" a company\nspokeswoman said.\n    Diamond is the latest in a line of U.S. oil companies that\nhave cut its contract, or posted, prices over the last two days\nciting weak oil markets.\n Reuter"

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在R tm包中,从Document-Term-Matrix构建语料库

来自分类Dev

使用gsub的语料库中的R tm替代词

来自分类Dev

如何将字符向量从R中的tm包转换为DocumentTermMatrix函数的语料库输入?

来自分类Dev

R tm软件包vcorpus:将语料库转换为数据帧时出错

来自分类Dev

如何基于元数据过滤R中的tm语料库中的文档?

来自分类Dev

如何基于元数据过滤R中的tm语料库中的文档?

来自分类Dev

如何仅选择语料库术语的一个子集以在tm中创建TermDocumentMatrix

来自分类Dev

R中的文本挖掘:创建语料库会创建不寻常的文本

来自分类Dev

利用R中JSON文件中存储的文本创建语料库

来自分类Dev

如何从 R 中的整个语料库中提取文档?

来自分类Dev

如何从语料库中提取特定文本?

来自分类Dev

如何在Python中读取多个nltk语料库文件并写入单个文本文件

来自分类Dev

在R中如何不通过语料库/ VCorpus将稀疏或simple_triplet_matrix转换为tm-package文档术语矩阵?

来自分类Dev

从R中的语料库中删除短语(停用词)?

来自分类Dev

R:Quanteda从语料库中删除标签

来自分类Dev

在R中使用tm的语料库功能处理大数据

来自分类Dev

R-文本挖掘-导入语料库并将文件名保留在文档术语矩阵中

来自分类Dev

如何在NLTK的印度语料库中打印北印度语单词?

来自分类Dev

在R中,如何计算语料库中的特定单词?

来自分类Dev

如何将列表转换为R中的语料库?

来自分类Dev

Python:如何删除文本语料库中的标点符号,但不删除特殊单词(例如 c++、c#、.net 等)中的标点符号

来自分类Dev

大文本语料库打破了tm_map

来自分类Dev

如何将多个 pdf 转换为一个语料库以在 R 中进行文本分析?

来自分类Dev

在 R 中读取语料库中每个文档的前两行

来自分类Dev

如何使用gensim从受约束的词汇中过滤出语料库中的单词?

来自分类Dev

删除文本语料库中的字符

来自分类Dev

如何将具有单列的R数据帧转换为tm的语料库,以使每一行都作为文档?

来自分类Dev

如何将具有单列的R数据帧转换为tm的语料库,以使每一行都作为文档?

来自分类Dev

将语料库转换为R中的data.frame

Related 相关文章

  1. 1

    在R tm包中,从Document-Term-Matrix构建语料库

  2. 2

    使用gsub的语料库中的R tm替代词

  3. 3

    如何将字符向量从R中的tm包转换为DocumentTermMatrix函数的语料库输入?

  4. 4

    R tm软件包vcorpus:将语料库转换为数据帧时出错

  5. 5

    如何基于元数据过滤R中的tm语料库中的文档?

  6. 6

    如何基于元数据过滤R中的tm语料库中的文档?

  7. 7

    如何仅选择语料库术语的一个子集以在tm中创建TermDocumentMatrix

  8. 8

    R中的文本挖掘:创建语料库会创建不寻常的文本

  9. 9

    利用R中JSON文件中存储的文本创建语料库

  10. 10

    如何从 R 中的整个语料库中提取文档?

  11. 11

    如何从语料库中提取特定文本?

  12. 12

    如何在Python中读取多个nltk语料库文件并写入单个文本文件

  13. 13

    在R中如何不通过语料库/ VCorpus将稀疏或simple_triplet_matrix转换为tm-package文档术语矩阵?

  14. 14

    从R中的语料库中删除短语(停用词)?

  15. 15

    R:Quanteda从语料库中删除标签

  16. 16

    在R中使用tm的语料库功能处理大数据

  17. 17

    R-文本挖掘-导入语料库并将文件名保留在文档术语矩阵中

  18. 18

    如何在NLTK的印度语料库中打印北印度语单词?

  19. 19

    在R中,如何计算语料库中的特定单词?

  20. 20

    如何将列表转换为R中的语料库?

  21. 21

    Python:如何删除文本语料库中的标点符号,但不删除特殊单词(例如 c++、c#、.net 等)中的标点符号

  22. 22

    大文本语料库打破了tm_map

  23. 23

    如何将多个 pdf 转换为一个语料库以在 R 中进行文本分析?

  24. 24

    在 R 中读取语料库中每个文档的前两行

  25. 25

    如何使用gensim从受约束的词汇中过滤出语料库中的单词?

  26. 26

    删除文本语料库中的字符

  27. 27

    如何将具有单列的R数据帧转换为tm的语料库,以使每一行都作为文档?

  28. 28

    如何将具有单列的R数据帧转换为tm的语料库,以使每一行都作为文档?

  29. 29

    将语料库转换为R中的data.frame

热门标签

归档