小编Jo *_*zyd的帖子

使用rvest提取html表格

我是 R 的新学习者,我对使用 rvest 提取 html 表并提交 html 表单感兴趣。

现在,我想从一个中文网站上获取一些有用的信息。网址是:

http://caipiao.163.com/award/cqssc/20160513.html

我使用的是带有 RStudio 版本 0.99.896 的 Windows 10 Professional,我使用 Google Chrome 作为带有 XPATH 帮助程序插件的网络浏览器。

我想从中文站点提取主html表,它包含120组关于彩票中奖号码的信息。第一个(001)是:98446,最后一个(120)是:01798;我只想提取数字(001)到(120)和中奖号码:98446到01798。

我使用 XPATH 助手和 Chrome 网络开发来获取 XPATH。

我认为我想要的信息的 XPATH 是:

//html/body/article[@class='docBody clearfix']/section[@id='mainArea']/div[@class='lottery-results']/table[@class='awardList']/*[@id="mainArea"]/div[1]/table/tbody/tr[2]/td[1]
Run Code Online (Sandbox Code Playgroud)

但是当我在 RStudio 中运行以下代码时,我无法得到我想要的结果。以下是我的代码:

> library(rvest)
Loading required package: xml2
> url <- "http://caipiao.163.com/award/cqssc/20160513.html"
> xp <- "//html/body/article[@class='docBody clearfix']/section    [@id='mainArea']/div[@class='lottery-results']/table[@class='awardList']/*[@id='mainArea']/div[1]/table/tbody/tr[2]/td[1]"
> 
> x <- read_html(url)
> y <- x %>% html_nodes(xpath=xp)
> y
{xml_nodeset (0)}

>
Run Code Online (Sandbox Code Playgroud)

请看一下我的代码,如果我犯了任何错误,请告诉我。你可以直接忽略那些不认识的汉字,它们不重要,我只想得到数字。

谢谢!约翰

xpath r

2
推荐指数
1
解决办法
3782
查看次数

标签 统计

r ×1

xpath ×1