r rvest 错误:“doc_namespaces(doc) 中的错误:外部指针无效”

NBK*_*NBK 5 error-handling r rvest xml2 purrr

我的问题与此类似,但后者没有收到我可以使用的答案。我正在使用 抓取数千个网址xml2::read_html。这很好用。purrr::map_df但是当我尝试使用and解析生成的 html 文档时html_nodes,出现以下错误:

Error in doc_namespaces(doc) : external pointer is not valid
Run Code Online (Sandbox Code Playgroud)

由于某种原因,我无法使用示例重现该错误。下面的例子并不好,因为它工作得很好。但是,如果有人可以从概念上向我解释错误的含义以及如何解决它,那就太好了(这里有一个关于类似问题的github 线程,但我不遵循所有技术细节)。

library(rvest)
library(purrr)
urls_test <- list("https://en.wikipedia.org/wiki/FC_Barcelona",
             "https://en.wikipedia.org/wiki/Rome")
h <- urls_test %>% map(~{
  Sys.sleep(sample(seq(1, 3, by=0.001), 1))
  read_html(.x)})
out <- h %>% map_df(~{
  a <- html_nodes(., "#firstHeading") %>% html_text()
  a <- if (length(a) == 0) NA else a
  b <- html_nodes(., ".toctext") %>% html_text()
  b <- if (length(b) == 0) NA else b

  df <- tibble(a, b)
})
Run Code Online (Sandbox Code Playgroud)

会议信息:

> sessionInfo()
R version 3.6.0 (2019-04-26)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Devuan GNU/Linux ascii
Run Code Online (Sandbox Code Playgroud)

ava*_*ava 6

问题是,R 使用外部指针将 xml 存储在内存中。这些外部指针不存储在.rds文件中。因此,一旦保存项目并重新打开它,您就会收到错误消息external pointer is not valid

解决方法:使用xml2::write_html()将解析后的html保存到html文件中。如果您想稍后使用它,只需阅读它xml2::read_html()

另请参阅此处的更多信息以及此处的并行处理和使用 R 并行处理 XML 节点