如何将一组 Unicode .txt 转换为 ANSI 以在 R 中进行文本分析

debugcn 发表于 Dev

迈克尔

我在 Windows 10 x64 上使用 R。我正在尝试将一组 txt 文件读入 R 进行文本分析。我正在使用以下代码：

setwd(inputdir)
files <- DirSource(directory = inputdir, encoding ="UTF-8" )
docs<- VCorpus(x=files)
writeLines(as.character(docs[[2]]))

最后一行旨在显示文档 #2 的内容，此代码将其显示为空（以及集合中的所有其他文档）。我不知道为什么。我检查了 txt 文档的编码（打开，然后选择“另存为”），我的 txt 文件编码是“Unicode”。当我手动将任何文件保存为“ANSI”时，它writeLines(as.character(docs[[2]]))会给我正确的内容。我想我应该将所有文件转换为 ANSI。在这方面，我想问一下如何在 R 中为“inputdir”中的所有 txt 文件执行此操作？

mischva11

获取所有txt文件

files <- list.files(path=getwd(), pattern="*.txt", full.names=T, recursive=FALSE)

用于转换编码并覆盖它的循环

for(i in 1:length(files)){
  input <- readLines(files[i])
  converted_input <- iconv(input, from = file_encoding, to = file_encoding)
  writeLines(converted_input,files[i])
}

可以通过iconvlist()命令查看可能的编码

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-20

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

如何将一组 Unicode .txt 转换为 ANSI 以在 R 中进行文本分析

如何将一组 Unicode .txt 转换为 ANSI 以在 R 中进行文本分析

如何将多个 pdf 转换为一个语料库以在 R 中进行文本分析？

如何使用AutoIt将Unicode字符转换为ANSI？

将ANSI C字符串转换为UNICODE

如何使用Unicode将DOS ANSI（CP 437）文件转换为Unix ANSI？

如何将unicode转换为unicode转义的文本

如何在Spark中进行文本分析

如何将包含多个“文档”的XML文件读入R进行文本分析？

Polybase将sql转换为ansi sql进行sybase连接

将文本转换为Unicode转义序列

如何将一系列unicode字符转换为可读文本？

如何将一系列unicode字符转换为可读文本？

如何将数字转换为unicode？

如何在R中进行时间序列分析，将时间“仓”转换为连续时间？

如何将一组坐标转换为Char？

将ANSI转换为UTF8

将byte []-Array转换为ANSI

使用R将PDF文件转换为文本文件以进行文本挖掘

如何在R中将CSV文件转换为.txt文件

如何将Unicode文本转换为可读的utf8文本？

将UnicodeÂÂ°°à±Â‡ÃÂ°ÂÂÂ±Ã转换为正常的unicode消息

将Unicode符号转换为Unicode实体

将UnicodeÂÂ°°à±Â‡ÃÂ°ÂÂÂ±Ã转换为正常的unicode消息

将UNICODE转换为shiftJIS

将UNICODE转换为shiftJIS

将String转换为unicode？

将unicode转换为字符

将Unicode转换为中文

将单词转换为 Unicode

当转换为另一个字符串时，如何将文本从txt文件转换为整数？蟒蛇