小编Ger*_*ert的帖子

规避循环函数中的错误(用于从 Twitter 提取数据)

我创建了一个循环函数,使用搜索 api 以一定的时间间隔(假设每 5 分钟)提取推文。该函数执行其预期的操作:连接到 Twitter,提取包含特定关键字的推文,并将其保存在 csv 文件中。然而,偶尔(一天 2-3 次)循环会由于以下两个错误之一而停止:

  • htmlTreeParse(URL, useInternal = TRUE) 中的错误:为http://search.twitter.com/search.atom?q= 6.95322e-310tst&rpp=100&page=10创建解析器时出错

  • UseMethod("xmlNamespaceDefinitions") 中的错误:没有适用于“xmlNamespaceDefinitions”的方法应用于类“NULL”的对象

我希望您能通过回答我的一些问题来帮助我处理这些错误:

  • 是什么导致这些错误发生?
  • 如何调整我的代码以避免这些错误?
  • 如果遇到错误,我如何“强制”循环继续运行(例如通过使用 Try 函数)?

我的函数(基于网上找到的几个脚本)如下:

    library(XML)   # htmlTreeParse

    twitter.search <- "Keyword"

    QUERY <- URLencode(twitter.search)

    # Set time loop (in seconds)
    d_time = 300
    number_of_times = 3000

    for(i in 1:number_of_times){

    tweets <- NULL
    tweet.count <- 0
    page <- 1
    read.more <- TRUE

    while (read.more)
    {
    # construct Twitter search URL
    URL <- paste('http://search.twitter.com/search.atom?q=',QUERY,'&rpp=100&page=', page, sep='')
    # fetch remote URL and …
Run Code Online (Sandbox Code Playgroud)

xml twitter loops r

5
推荐指数
1
解决办法
1656
查看次数

合并多个CSV文件并删除R中的重复项

我有几乎3.000个CSV文件(包含推文)具有相同的格式,我想将这些文件合并为一个新文件并删除重复的推文.我遇到过讨论类似问题的各种主题,但文件数量通常很少.我希望你能帮我在R中编写一个能够高效,有效地完成这项工作的代码.

CSV文件具有以下格式:

CSV格式的图片: 示例CSV文件

我将(在第2和第3列)用户名(在Twitter上)更改为AE,将"实际名称"更改为A1-E1.

原始文本文件:

"tweet";"author";"local.time"
"1";"2012-06-05 00:01:45 @A (A1):  Cruijff z'n met-zwart-shirt-zijn-ze-onzichtbaar logica is even mooi ontkracht in #bureausport.";"A (A1)";"2012-06-05 00:01:45"
"2";"2012-06-05 00:01:41 @B (B1):  Welterusten #BureauSport";"B (B1)";"2012-06-05 00:01:41"
"3";"2012-06-05 00:01:38 @C (C1):  Echt ..... eindelijk een origineel sportprogramma #bureausport";"C (C1)";"2012-06-05 00:01:38"
"4";"2012-06-05 00:01:38 @D (D1):  LOL. \"Na onderzoek op de Fontys Hogeschool durven wij te stellen dat..\" Want Fontys staat zo hoog aangeschreven? #bureausport";"D (D1)";"2012-06-05 00:01:38"
"5";"2012-06-05 00:00:27 @E (E1):  Ik kijk Bureau sport op Nederland 3. #bureausport …
Run Code Online (Sandbox Code Playgroud)

csv merge r duplicates

4
推荐指数
1
解决办法
8903
查看次数

标签 统计

r ×2

csv ×1

duplicates ×1

loops ×1

merge ×1

twitter ×1

xml ×1