小编Mar*_*viv的帖子

使用R,RCurl进行多个Web表挖掘

首先,提前感谢任何回复.

我需要通过在各自的网页中加入一些较小的表来获取表格.到目前为止,我已经能够提取信息,但未能使用循环自动完成.到目前为止,我的命令是:

library(RCurl)
library(XML)
# index <- toupper(letters)
# EDIT:
index <- LETTERS

index[1] <- "0-A"
url <- paste("www.citefactor.org/journal-impact-factor-list-2014_", index, ".html", sep="", collapse=";")
urls <- strsplit(url, ";") [[1]]
Run Code Online (Sandbox Code Playgroud)

这是我的循环尝试:

read.html.tab <- function(url){
 require(RCurl)
 require(XML)
 uri <- url
 tabs <- NULL
 for (i in uri){
  tabs <- getURL(uri)
  tabs <- readHTMLTable(tabs, stringsAsFactors = F)
  tab1 <- as.data.frame(tabs)
  }
 tab1
 }
Run Code Online (Sandbox Code Playgroud)

如果我尝试使用该read.html.tab功能:

tab0 <- read.html.tab(urls)
Run Code Online (Sandbox Code Playgroud)

我收到以下错误: Error in data.frame(`Search Journal Impact Factor List 2014` = list(`0-A` = "N", : arguments …

for-loop r web-scraping rcurl

2
推荐指数
1
解决办法
404
查看次数

标签 统计

for-loop ×1

r ×1

rcurl ×1

web-scraping ×1