小编Ann*_*sen的帖子

在制作Twitter wordcloud时运行'tolower'后出现错误

试图从twitter数据创建wordcloud,但得到以下错误:

Error in FUN(X[[72L]], ...) : 
  invalid input '????????????????????????? "@xxx:bla, bla, bla... http://t.co/56Fb78aTSC"' in 'utf8towcs' 
Run Code Online (Sandbox Code Playgroud)

运行"mytwittersearch_corpus < - tm_map(mytwittersearch_corpus,tolower)"代码后出现此错误

mytwittersearch_list <-sapply(mytwittersearch, function(x) x$getText())

mytwittersearch_corpus <-Corpus(VectorSource(mytwittersearch_corpus_list))
mytwittersearch_corpus<-tm_map(mytwittersearch_corpus, tolower)
mytwittersearch_corpus<-tm_map( mytwittersearch_corpus, removePunctuation)
mytwittersearch_corpus <-tm_map(mytwittersearch_corpus, function(x) removeWords(x, stopwords()))
Run Code Online (Sandbox Code Playgroud)

我在其他页面上看到这可能是由于R难以处理非英语语言中的符号,表情符号和字母,但这似乎不是R有问题的"错误推文"的问题.我确实运行了代码:

mytwittersearch_corpus <- tm_map(mytwittersearch_corpus, function(x) iconv(enc2utf8(x), sub = "byte"))
mytwittersearch_corpus<- tm_map(mytwittersearch_corpus, content_transformer(function(x)    iconv(enc2utf8(x), sub = "bytes")))
Run Code Online (Sandbox Code Playgroud)

这些没有帮助.content_transformer即使tm-package已经检查并运行,我也发现它无法找到功能.

我在OS X 10.6.8上运行它并使用最新的RStudio.

twitter r tm

5
推荐指数
2
解决办法
2万
查看次数

标签 统计

r ×1

tm ×1

twitter ×1