相关疑难解决方法(0)

将维基百科中的表加载到R中

我正试图从以下网址将最高法院大法官的表格加载到R中. https://en.wikipedia.org/wiki/List_of_Justices_of_the_Supreme_Court_of_the_United_States

我正在使用以下代码:

scotusURL <- "https://en.wikipedia.org/wiki/List_of_Justices_of_the_Supreme_Court_of_the_United_States"
scotusData <- getURL(scotusURL, ssl.verifypeer = FALSE)
scotusDoc <- htmlParse(scotusData)
scotusData <- scotusDoc['//table[@class="wikitable"]']
scotusTable <- readHTMLTable(scotusData[[1]], stringsAsFactors = FALSE)

Run Code Online (Sandbox Code Playgroud)

R将scotusTable返回为NULL.这里的目标是在R中获得一个data.frame,我可以用来在法庭上制作SCOTUS正义任期的ggplot.我以前有脚本工作制作一个很棒的情节,但是在最近的决定之后,页面上的某些内容发生了变化,现在脚本将无法运行.我浏览了维基百科上的HTML以试图找到任何更改,但是我不是webdev所以任何破坏我的脚本的东西都不会立即显现出来.

另外,R中是否有一个方法可以让我从这个页面缓存数据,所以我不会经常引用URL？这似乎是未来避免这个问题的理想方式.感谢帮助.

顺便说一句,SCOTUS在我正在进行的业余爱好/侧面项目中,所以如果有一些其他数据源比维基百科更好,我全都听见了.

编辑:对不起我应该列出我的依赖项.我正在使用XML,plyr,RCurl,data.table和ggplot2库.

xml r html-parsing data.table

Ben*_*ott

2015 07-02

4
推荐指数

1
解决办法

2764
查看次数