在R中使用`rvest`使用`read_html`时缺少元素

Question

在R中使用`rvest`使用`read_html`时缺少元素

我正在尝试使用包中的read_html函数rvest,但遇到了我正在努力解决的问题.

例如,如果我试图阅读此页面上显示的底部表格,我将使用以下代码:

library(rvest)
html_content <- read_html("https://projects.fivethirtyeight.com/2016-election-forecast/washington/#now")

Run Code Online (Sandbox Code Playgroud)

通过检查浏览器中的HTML代码,我可以看到我想要的内容包含在<table>标记中(具体来说,它都包含在内<table class="t-calc">).但是当我尝试使用以下方法提取时:

tables <- html_nodes(html_content, xpath = '//table')

Run Code Online (Sandbox Code Playgroud)

我检索以下内容:

> tables
{xml_nodeset (4)}
[1] <table class="tippingpointroi unexpanded">\n  <tbody>\n    <tr data-state="FL" class=" "> ...
[2] <table class="tippingpointroi unexpanded">\n  <tbody>\n    <tr data-state="NV" class=" "> ...
[3] <table class="scenarios">\n  <tbody/>\n  <tr data-id="1">\n    <td class="description">El ...
[4] <table class="t-desktop t-polls">\n  <thead>\n    <tr class="th-row">\n      <th class="t ...

Run Code Online (Sandbox Code Playgroud)

其中包括页面上的一些表格元素,但不包括我感兴趣的表格元素.

关于我哪里出错的任何建议都将非常感谢!

Answer 1

hrb*_*str 6

该表是根据页面本身的JavaScript变量中的数据动态构建的.要么RSelenium在渲染后抓取页面文本并将页面传递给rvestOR,请使用V8以下方法获取所有数据的宝库:

library(rvest)
library(V8)

URL <- "http://projects.fivethirtyeight.com/2016-election-forecast/washington/#now"

pg <- read_html(URL)

js <- html_nodes(pg, xpath=".//script[contains(., 'race.model')]") %>%  html_text()

ctx <- v8()
ctx$eval(JS(js))

race <- ctx$get("race", simplifyVector=FALSE)

str(race) ## output too large to paste here

Run Code Online (Sandbox Code Playgroud)

如果他们改变了JavaScript的格式(这是一个自动化的过程,所以它不太可能但你永远不知道)那么这种RSelenium方法会更好,只要它们不改变表结构的格式(再次,不太可能,但你永远不知道) .

归档时间：	9 年，9 月前
查看次数：	987 次
最近记录：	9 年，9 月前