我正在尝试通过阅读 XPath 代码来抓取网站。当我进入开发人员部分时,我看到这些行:
<span class="js-bestRate-show" data-crid="11232895" data-id="928723" data-abc="0602524361510" data-referecenceta="44205406" data-catalog="1">
Run Code Online (Sandbox Code Playgroud)
我想抓取 data-abc 的所有值。假设网站上的每个元素都是一部电影,所以我想抓取页面上每部电影的所有 data-abc 元素。
我想使用带有 R 的 Rvest 包来做到这一点。下面是两种不同的尝试,但没有成功...
website %>% html_nodes("js-bestRate-show") %>% html_text()
website %>%
html_nodes(xpath = "js-bestRate-show") %>%
html_nodes(xpath = "//div") %>%
html_nodes(xpath = "//span") %>%
html_nodes(xpath = "//data-abc")
Run Code Online (Sandbox Code Playgroud)
有人知道 html_nodes 和 Rvest 是如何工作的吗?
该节点span
具有 class js-bestRate-show
。其他一切都是属性。所以你想要这样的东西:
library(rvest)
h <- '<span class="js-bestRate-show" data-crid="11232895" data-id="928723" data-abc="0602524361510" data-referecenceta="44205406" data-catalog="1">'
h %>%
read_html() %>%
html_nodes("span.js-bestRate-show") %>%
html_attr("data-abc")
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
4865 次 |
最近记录: |