相关疑难解决方法(0)

TwitteR,ROAuth和Windows:注册正常,但证书验证失败

我正试图获得大量Twitter用户的追随者数量twitteR.发布的其他 许多问题对我这么做很有用,但就我所知,似乎没有一个与我的问题直接相关.

我可以将我的OAuth凭证注册到twitter R会话,但是我似乎根本无法做任何事情,我得到的是这条消息:

Error in function (type, msg, asError = TRUE) : SSL certificate problem, verify that the CA cert is OK. Details: error:14090086:SSL routines:SSL3_GET_SERVER_CERTIFICATE:certificate verify fail

当我在twitteR不使用OAuth的情况下使用这些功能时,它们可以正常工作,没有任何错误或警告,但我遇到限制和受保护的帐户,我认为我可以避免使用OAuth.

以下是详细信息:

library(twitteR)
library(ROAuth)
library(RCurl)
#
# Here's how I register my credentials
#
requestURL <-  "https://api.twitter.com/oauth/request_token"
accessURL =    "https://api.twitter.com/oauth/access_token"
authURL =      "https://api.twitter.com/oauth/authorize"
consumerKey =   "------------"
consumerSecret = "-----------"
twitCred <- OAuthFactory$new(consumerKey=consumerKey,
                             consumerSecret=consumerSecret,
                             requestURL=requestURL,
                             accessURL=accessURL,
                             authURL=authURL)
download.file(url="http://curl.haxx.se/ca/cacert.pem",
              destfile="cacert.pem")
twitCred$handshake(cainfo="cacert.pem")
To enable the connection, please direct …
Run Code Online (Sandbox Code Playgroud)

twitter r twitter-oauth

15
推荐指数
2
解决办法
2万
查看次数

使用tm()从R中的语料库中删除非英语文本

我在R中使用tm()wordcloud()进行一些基本的数据挖掘,但由于我的数据集中有非英文字符(即使我试图根据背景变量过滤掉其他语言),我遇到了困难.

假设我的TXT文件中的一些行(在TextWrangler中保存为UTF-8)如下所示:

Special
satisfação
Happy
Sad
Potential für
Run Code Online (Sandbox Code Playgroud)

然后我将我的txt文件读入R:

words <- Corpus(DirSource("~/temp", encoding = "UTF-8"),readerControl = list(language = "lat"))
Run Code Online (Sandbox Code Playgroud)

这会产生警告消息:

Warning message:
In readLines(y, encoding = x$Encoding) :
  incomplete final line found on '/temp/file.txt'
Run Code Online (Sandbox Code Playgroud)

但由于这是一个警告,而不是错误,我继续向前推进.

words <- tm_map(words, stripWhitespace)
words <- tm_map(words, tolower)
Run Code Online (Sandbox Code Playgroud)

然后产生错误:

Error in FUN(X[[1L]], ...) : invalid input 'satisfa??o' in 'utf8towcs'
Run Code Online (Sandbox Code Playgroud)

我愿意找到在TextWrangler或R中过滤掉非英文字符的方法; 无论什么是最权宜之计.谢谢你的帮助!

r tm

10
推荐指数
1
解决办法
2万
查看次数

Twitter表情符号编码twitteR和R的问题

我正在尝试构建一种在twitter中查找表情符号的方法,并将它们与unicode表中可以找到的unicode表联系起来,但我发现很难识别它们,因为我认为编码问题或仅仅是我对它的误解.这个话题.简而言之,我所做的是从http://www.unicode.org/emoji/charts/full-emoji-list.html中的表格中构建一个表情符号"库",其中包含标题和代码点(代码表情符号.我在R里用图书馆rvest取消了这个.

问题出现在我用推特中的twitteR API从twitter获取信息时.因为表情符号的代码看起来并不像这个表中的那些.

让我们举一个100(100点)红色图标表情符号的例子.这是前链接表中的数字1468,其代码点代码为:

U+1F4AF
Run Code Online (Sandbox Code Playgroud)

现在,当我从twitter中获取它时,首先它在状态类中显示为这样,API已内置以使用推文.

\xed??\xed??
Run Code Online (Sandbox Code Playgroud)

然后,一旦我将其转换为数据帧,我也使用来自twitter API的内置函数.例如:

tweet$toDataFrame()
Run Code Online (Sandbox Code Playgroud)

表情符号变为:

<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>
Run Code Online (Sandbox Code Playgroud)

我尝试使用R中的函数iconv将其转换为以下代码:

iconv(tweet$text, from="UTF-8", to="ASCII", "byte)
Run Code Online (Sandbox Code Playgroud)

我只设法使它看起来像这样:

<ed><a0><bd><ed><b2><af>
Run Code Online (Sandbox Code Playgroud)

因此,结束并在测试结束时,我得到以下结果:

<ed><a0><bd><ed><b2><af>
<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>
\xed??\xed??
Run Code Online (Sandbox Code Playgroud)

其中没有一个看起来像表格指定的代码点:

U+1F4AF
Run Code Online (Sandbox Code Playgroud)

有没有可能在两个字符串之间进行转换?我错过了什么?为什么Twitter会为emojis返回此信息?

twitter encoding r utf-8 emoji

5
推荐指数
1
解决办法
4685
查看次数

使用 tm 包删除 R 中的表情符号

我正在使用 tm 包来清理 Twitter 语料库。但是,该软件包无法清理表情符号。

\n\n

这是复制的代码:

\n\n
July4th_clean <- tm_map(July4th_clean, content_transformer(tolower))\nError in FUN(content(x), ...) : invalid input 'RT ElleJohnson Love of country is encircling the globes \xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd july4thweekend July4th FourthOfJuly IndependenceDay NotAvailableOnIn' in 'utf8towcs'\n
Run Code Online (Sandbox Code Playgroud)\n\n

有人可以指出我使用 tm 包删除表情符号的正确方向吗?

\n\n

谢谢你,

\n\n

路易斯

\n

r emoticons sentiment-analysis tm

4
推荐指数
1
解决办法
1万
查看次数