NBK*_*NBK 5 error-handling r rvest xml2 purrr
我的问题与此类似,但后者没有收到我可以使用的答案。我正在使用 抓取数千个网址xml2::read_html。这很好用。purrr::map_df但是当我尝试使用and解析生成的 html 文档时html_nodes,出现以下错误:
Error in doc_namespaces(doc) : external pointer is not valid
Run Code Online (Sandbox Code Playgroud)
由于某种原因,我无法使用示例重现该错误。下面的例子并不好,因为它工作得很好。但是,如果有人可以从概念上向我解释错误的含义以及如何解决它,那就太好了(这里有一个关于类似问题的github 线程,但我不遵循所有技术细节)。
library(rvest)
library(purrr)
urls_test <- list("https://en.wikipedia.org/wiki/FC_Barcelona",
"https://en.wikipedia.org/wiki/Rome")
h <- urls_test %>% map(~{
Sys.sleep(sample(seq(1, 3, by=0.001), 1))
read_html(.x)})
out <- h %>% map_df(~{
a <- html_nodes(., "#firstHeading") %>% html_text()
a <- if (length(a) == 0) NA else a
b <- html_nodes(., ".toctext") %>% html_text()
b <- if (length(b) == 0) NA else b
df <- tibble(a, b)
})
Run Code Online (Sandbox Code Playgroud)
会议信息:
> sessionInfo()
R version 3.6.0 (2019-04-26)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Devuan GNU/Linux ascii
Run Code Online (Sandbox Code Playgroud)
问题是,R 使用外部指针将 xml 存储在内存中。这些外部指针不存储在.rds文件中。因此,一旦保存项目并重新打开它,您就会收到错误消息external pointer is not valid。
解决方法:使用xml2::write_html()将解析后的html保存到html文件中。如果您想稍后使用它,只需阅读它xml2::read_html()
另请参阅此处的更多信息以及此处的并行处理和使用 R 并行处理 XML 节点