如何在*服务器身份验证后使用RCurl*下载大型二进制文件

Ant*_*ico 9 r web-scraping rcurl httr

我最初问这个关于使用httr包执行此任务的问题,但我认为不可能使用httr.所以我重新编写了我的代码来RCurl代替使用- 但我仍然踩着可能与...相关的东西writefunction但我真的不明白为什么.

您应该能够使用32位版本的R来重现我的工作,因此如果您在RAM中读取任何内容,则会达到内存限制.我需要一个直接下载到硬盘的解决方案.

首先,这段代码可以正常工作 - 压缩文件被妥善保存到磁盘上.

library(RCurl)
filename <- tempfile()
f <- CFILE(filename, "wb")
url <- "http://www2.census.gov/acs2011_5yr/pums/csv_pus.zip"
curlPerform(url = url, writedata = f@ref)
close(f)
# 2.1 GB file successfully written to disk
Run Code Online (Sandbox Code Playgroud)

现在这里有一些RCurl不起作用的代码.如前一个问题所述,复制这一点将需要在ipums上创建一个提取.

your.email <- "email@address.com"
your.password <- "password"
extract.path <- "https://usa.ipums.org/usa-action/downloads/extract_files/some_file.csv.gz"

library(RCurl)

values <- 
    list(
        "login[email]" = your.email , 
        "login[password]" = your.password , 
        "login[is_for_login]" = 1
    )

curl = getCurlHandle()

curlSetOpt(
    cookiejar = 'cookies.txt', 
    followlocation = TRUE, 
    autoreferer = TRUE, 
    ssl.verifypeer = FALSE,
    curl = curl
)

params <- 
    list(
        "login[email]" = your.email , 
        "login[password]" = your.password , 
        "login[is_for_login]" = 1
    )

html <- postForm("https://usa.ipums.org/usa-action/users/validate_login", .params = params, curl = curl)
dl <- getURL( "https://usa.ipums.org/usa-action/extract_requests/download" , curl = curl)
Run Code Online (Sandbox Code Playgroud)

现在我已经登录,尝试与上面相同的命令,但curl保留cookie 的对象.

filename <- tempfile()
f <- CFILE(filename, mode = "wb")
Run Code Online (Sandbox Code Playgroud)

这条线断裂 -

curlPerform(url = extract.path, writedata = f@ref, curl = curl)
close(f)

# the error is:
Error in curlPerform(url = extract.path, writedata = f@ref, curl = curl) : 
  embedded nul in string: [[binary jibberish here]]
Run Code Online (Sandbox Code Playgroud)

我上一篇文章的答案提到了这个c级写功能的答案,但我对如何重新创建curl_writer C程序(在Windows上?)一无所知.

dyn.load("curl_writer.so")
writer <- getNativeSymbolInfo("writer", PACKAGE="curl_writer")$address
curlPerform(URL=url, writefunction=writer)
Run Code Online (Sandbox Code Playgroud)

..或者为什么它甚至是必要的,因为这个问题顶部的五行代码没有任何疯狂的情况getNativeSymbolInfo.我只是不明白为什么传入curl存储身份验证/ cookie的额外对象并告诉它不要验证SSL会导致代码无法正常工作..打破?

Ant*_*ico 1

现在通过该软件包可以实现这一点httr。谢谢哈德利!

https://github.com/hadley/httr/issues/44