如何使用Rselenium读取html表？

Question

如何使用Rselenium读取html表？

mam*_*mal 12 selenium r web-scraping rselenium

我正在使用Rselenium导航到网页.以下代码正在这样做.我没有提供网址,因为我在需要vpn连接的公司中使用网址:

RSelenium::startServer()
require(RSelenium)
remDr <- remoteDriver()
remDr$navigate("some url")

Run Code Online (Sandbox Code Playgroud)

导航到网页后,在html源代码中我有下表:

<font size="2">
<table border="1">
<tbody>
<tr>
<td> item1 </td>
<td> 0 </td>
<td> 0.05 </td>
<td> 2.43 </td>
<td align="center"> Pct </td>
<td align="center"> 1 </td>
</tr>
</tbody>
</table>

Run Code Online (Sandbox Code Playgroud)

现在问题是如何提取此表的内容？请假设url不存在,否则我可以使用XML函数:readHTMLTable(remDr $ getCurrentUrl()).但由于某些原因,这不起作用.我只需要使用remoteDriver句柄(remDr).非常感谢你的时间

Answer 1

jdh*_*son 18

就像是:

library(XML)
doc <- htmlParse(remDr$getPageSource()[[1]])
readHTMLTable(doc)

Run Code Online (Sandbox Code Playgroud)

应该允许您访问html并处理包含的表.

归档时间：	10 年，4 月前
查看次数：	4389 次
最近记录：	6 年，1 月前