我正试图获得大量Twitter用户的追随者数量twitteR
.发布的其他 许多问题对我这么做很有用,但就我所知,似乎没有一个与我的问题直接相关.
我可以将我的OAuth凭证注册到twitter R会话,但是我似乎根本无法做任何事情,我得到的是这条消息:
Error in function (type, msg, asError = TRUE) :
SSL certificate problem, verify that the CA cert is OK. Details:
error:14090086:SSL routines:SSL3_GET_SERVER_CERTIFICATE:certificate verify fail
当我在twitteR
不使用OAuth的情况下使用这些功能时,它们可以正常工作,没有任何错误或警告,但我遇到限制和受保护的帐户,我认为我可以避免使用OAuth.
以下是详细信息:
library(twitteR)
library(ROAuth)
library(RCurl)
#
# Here's how I register my credentials
#
requestURL <- "https://api.twitter.com/oauth/request_token"
accessURL = "https://api.twitter.com/oauth/access_token"
authURL = "https://api.twitter.com/oauth/authorize"
consumerKey = "------------"
consumerSecret = "-----------"
twitCred <- OAuthFactory$new(consumerKey=consumerKey,
consumerSecret=consumerSecret,
requestURL=requestURL,
accessURL=accessURL,
authURL=authURL)
download.file(url="http://curl.haxx.se/ca/cacert.pem",
destfile="cacert.pem")
twitCred$handshake(cainfo="cacert.pem")
To enable the connection, please direct …
Run Code Online (Sandbox Code Playgroud) 我在R中使用tm()
和wordcloud()
进行一些基本的数据挖掘,但由于我的数据集中有非英文字符(即使我试图根据背景变量过滤掉其他语言),我遇到了困难.
假设我的TXT文件中的一些行(在TextWrangler中保存为UTF-8)如下所示:
Special
satisfação
Happy
Sad
Potential für
Run Code Online (Sandbox Code Playgroud)
然后我将我的txt文件读入R:
words <- Corpus(DirSource("~/temp", encoding = "UTF-8"),readerControl = list(language = "lat"))
Run Code Online (Sandbox Code Playgroud)
这会产生警告消息:
Warning message:
In readLines(y, encoding = x$Encoding) :
incomplete final line found on '/temp/file.txt'
Run Code Online (Sandbox Code Playgroud)
但由于这是一个警告,而不是错误,我继续向前推进.
words <- tm_map(words, stripWhitespace)
words <- tm_map(words, tolower)
Run Code Online (Sandbox Code Playgroud)
然后产生错误:
Error in FUN(X[[1L]], ...) : invalid input 'satisfa??o' in 'utf8towcs'
Run Code Online (Sandbox Code Playgroud)
我愿意找到在TextWrangler或R中过滤掉非英文字符的方法; 无论什么是最权宜之计.谢谢你的帮助!
我正在尝试构建一种在twitter中查找表情符号的方法,并将它们与unicode表中可以找到的unicode表联系起来,但我发现很难识别它们,因为我认为编码问题或仅仅是我对它的误解.这个话题.简而言之,我所做的是从http://www.unicode.org/emoji/charts/full-emoji-list.html中的表格中构建一个表情符号"库",其中包含标题和代码点(代码表情符号.我在R里用图书馆rvest取消了这个.
问题出现在我用推特中的twitteR API从twitter获取信息时.因为表情符号的代码看起来并不像这个表中的那些.
让我们举一个100(100点)红色图标表情符号的例子.这是前链接表中的数字1468,其代码点代码为:
U+1F4AF
Run Code Online (Sandbox Code Playgroud)
现在,当我从twitter中获取它时,首先它在状态类中显示为这样,API已内置以使用推文.
\xed??\xed??
Run Code Online (Sandbox Code Playgroud)
然后,一旦我将其转换为数据帧,我也使用来自twitter API的内置函数.例如:
tweet$toDataFrame()
Run Code Online (Sandbox Code Playgroud)
表情符号变为:
<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>
Run Code Online (Sandbox Code Playgroud)
我尝试使用R中的函数iconv将其转换为以下代码:
iconv(tweet$text, from="UTF-8", to="ASCII", "byte)
Run Code Online (Sandbox Code Playgroud)
我只设法使它看起来像这样:
<ed><a0><bd><ed><b2><af>
Run Code Online (Sandbox Code Playgroud)
因此,结束并在测试结束时,我得到以下结果:
<ed><a0><bd><ed><b2><af>
<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>
\xed??\xed??
Run Code Online (Sandbox Code Playgroud)
其中没有一个看起来像表格指定的代码点:
U+1F4AF
Run Code Online (Sandbox Code Playgroud)
有没有可能在两个字符串之间进行转换?我错过了什么?为什么Twitter会为emojis返回此信息?
我正在使用 tm 包来清理 Twitter 语料库。但是,该软件包无法清理表情符号。
\n\n这是复制的代码:
\n\nJuly4th_clean <- tm_map(July4th_clean, content_transformer(tolower))\nError in FUN(content(x), ...) : invalid input 'RT ElleJohnson Love of country is encircling the globes \xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd july4thweekend July4th FourthOfJuly IndependenceDay NotAvailableOnIn' in 'utf8towcs'\n
Run Code Online (Sandbox Code Playgroud)\n\n有人可以指出我使用 tm 包删除表情符号的正确方向吗?
\n\n谢谢你,
\n\n路易斯
\n