如何处理/删除表情符号以便我可以对推文进行情感分析?
获取:sort.list(y)中的错误:输入无效
谢谢
这就是表情符号从twitter发送到r中的方式:
\xed??\xed?\u0083\xed??\xed??
\xed??\xed?\u008d\xed??\xed?\u0089
Run Code Online (Sandbox Code Playgroud) 我正在尝试对 R 进行表情符号分析。我在有表情符号的地方存储了一些推文。
这是我要分析的推文之一:
> tweetn2
[1] "Programme du week-end: \xed\xa0\xbd\xed\xb2\x83\xed\xa0\xbc \xed\xbe\xb6\xed\xa0\xbc
\xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb\xed\xa0\xbc \xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb"
Run Code Online (Sandbox Code Playgroud)
确保我有“UTF-8”:
> Encoding(tweetn2)
[1] "UTF-8
Run Code Online (Sandbox Code Playgroud)
" 现在当我试图识别某些字符时,它无法正常工作
> grepl("\\xed",tweetn2)
[1] FALSE
Run Code Online (Sandbox Code Playgroud)
或者
> grepl("xed",tweetn2)
[1] FALSE
Run Code Online (Sandbox Code Playgroud)
但似乎表情符号“\xed\xa0\xbd”不是“UTF-8”编码,因为我在编写时收到一条错误消息:
> str(tweetn2)
Error in str.default(tweetn2) : invalid multibyte string, element 1
Run Code Online (Sandbox Code Playgroud)
我通过使用 iconv() 函数和“ASCII”编码找到了一种解决方案:http :
//www.r-bloggers.com/emoticons-decoder-for-social-media-sentiment-analysis-in-r/
但我想继续使用“UTF-8”进行分析,因为它适用于法语特殊字母(à、é、è、ê、ë、û 等。)
那么你知道我怎样才能超越它吗?
谢谢