Rvest html_nodes span div 和 Xpath

Question

Rvest html_nodes span div 和 Xpath

我正在尝试通过阅读 XPath 代码来抓取网站。当我进入开发人员部分时，我看到这些行：

<span class="js-bestRate-show" data-crid="11232895" data-id="928723" data-abc="0602524361510" data-referecenceta="44205406" data-catalog="1">

Run Code Online (Sandbox Code Playgroud)

我想抓取 data-abc 的所有值。假设网站上的每个元素都是一部电影，所以我想抓取页面上每部电影的所有 data-abc 元素。

我想使用带有 R 的 Rvest 包来做到这一点。下面是两种不同的尝试，但没有成功...

website %>% html_nodes("js-bestRate-show") %>% html_text()

website %>%
  html_nodes(xpath = "js-bestRate-show") %>%
  html_nodes(xpath = "//div") %>%
  html_nodes(xpath = "//span") %>%
  html_nodes(xpath = "//data-abc")

Run Code Online (Sandbox Code Playgroud)

有人知道 html_nodes 和 Rvest 是如何工作的吗？

Answer 1

nei*_*fws 5

该节点span具有 class js-bestRate-show。其他一切都是属性。所以你想要这样的东西：

library(rvest)
h <- '<span class="js-bestRate-show" data-crid="11232895" data-id="928723" data-abc="0602524361510" data-referecenceta="44205406" data-catalog="1">'

h %>% 
  read_html() %>% 
  html_nodes("span.js-bestRate-show") %>% 
  html_attr("data-abc")

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，7 月前
查看次数：	4865 次
最近记录：	7 年，7 月前