小编Mar*_*viv的帖子

使用R,RCurl进行多个Web表挖掘

首先,提前感谢任何回复.

我需要通过在各自的网页中加入一些较小的表来获取表格.到目前为止,我已经能够提取信息,但未能使用循环自动完成.到目前为止,我的命令是:

library(RCurl)
library(XML)
# index <- toupper(letters)
# EDIT:
index <- LETTERS

index[1] <- "0-A"
url <- paste("www.citefactor.org/journal-impact-factor-list-2014_", index, ".html", sep="", collapse=";")
urls <- strsplit(url, ";") [[1]]

Run Code Online (Sandbox Code Playgroud)

这是我的循环尝试:

read.html.tab <- function(url){
 require(RCurl)
 require(XML)
 uri <- url
 tabs <- NULL
 for (i in uri){
  tabs <- getURL(uri)
  tabs <- readHTMLTable(tabs, stringsAsFactors = F)
  tab1 <- as.data.frame(tabs)
  }
 tab1
 }

Run Code Online (Sandbox Code Playgroud)

如果我尝试使用该read.html.tab功能: