用"代理"抓取https网站的网页"rvest"

Sta*_*kov 7 r web-scraping rvest

我想废弃一个https网站,但我失败了.

这是我的代码:

require(rvest)
url <- "https://www.sunnyplayer.com/de/"
content <- read_html(url)
Run Code Online (Sandbox Code Playgroud)

但我在控制台中出错 - "open.connection(x,"rb")出错:达到超时"我如何解决这个问题?

小智 11

代理上发生了同样的事情.要解决此问题,请使用download.file并指定下载位置.然后,您可以使用read_html解析该文件.

download.file(url, destfile = 'C://whatever.html')
content <- read_html('C://whatever.html')
Run Code Online (Sandbox Code Playgroud)