我想使用 tm 包进行希伯来语或阿拉伯语文本分析。我尝试了几种方法来查看 tm 是否能够处理一些单词,但我遇到了错误,有没有办法解决这个问题?
text <- "הנוסעים חיכו זמן רב לנסיעה"
Encoding(text)
#[1] "unknown"
Encoding(text) <- "UTF-8"
ap.corpus <- Corpus(DataframeSource(data.frame(text)))
ap.corpus <- tm_map(ap.corpus, removePunctuation)
ap.corpus <- tm_map(ap.corpus, content_transformer(tolower))
Error in FUN(content(x), ...) :
invalid input 'הנוסעים חיכו זמן רב לנסיעה' in 'utf8towcs'
这就是答案,我们需要添加这种编码方法:
iconv(text, "ISO-8859-8", "UTF-8")[1]
而不是使用: Encoding(text) <- "UTF-8"
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句