Dam*_*ien 6 r utf-8 text-mining multibyte
我是R软件的新手
现在,使用"tm"包研究文本挖掘"
我有一个关于将文本映射到小写的问题
sms_raw<-read.csv(............)
sms_corpus<-Corpus(VectorSource(sms_raw$text))
sms_corpus<-Corpus(VectorSource(sms_raw$text))
tm_map(sms_corpus,content_transformer(tolower))
error:invalid multubytes string 1
Run Code Online (Sandbox Code Playgroud)
我以为我的csv文件可能不是utf-8所以我恢复为utf-8但它没有用.
我的操作系统是win8.1
有人解决这个问题请告诉我.
Dam*_*ien 17
我通过编码功能很容易解决的错误
在我的文件列中,文本名称包含多字节字符
所以我输入
sms_raw$text <- iconv(enc2utf8(sms_raw$text),sub="byte")
Run Code Online (Sandbox Code Playgroud)
此命令将"text"列(多字节)转换为utf8格式