相关疑难解决方法(0)

使用XML包将html表刮入R数据帧

如何使用XML包刮取html表?

巴西足球队的维基百科页面为例.我想在R中阅读并获得"巴西队对阵FIFA认可球队所有比赛的名单"表作为data.frame.我怎样才能做到这一点?

html xml parsing r web-scraping

151
推荐指数
4
解决办法
11万
查看次数

如何在R中从单个元素中删除单个元素

我想用R来刮掉这个页面:( http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html)和其他人,以获得目标得分手和时间.

到目前为止,这就是我所拥有的:

require(RCurl)
require(XML)

theURL <-"http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html"
webpage <- getURL(theURL, header=FALSE, verbose=TRUE) 
webpagecont <- readLines(tc <- textConnection(webpage)); close(tc)  

pagetree <- htmlTreeParse(webpagecont, error=function(...){}, useInternalNodes = TRUE)
Run Code Online (Sandbox Code Playgroud)

pagetree对象现在包含指向我解析的html的指针(我认为).我想要的部分是:

<div class="cont")<ul>
<div class="bold medium">Goals scored</div>
        <li>Philipp LAHM (GER) 6', </li>
        <li>Paulo WANCHOPE (CRC) 12', </li>
        <li>Miroslav KLOSE (GER) 17', </li>
        <li>Miroslav KLOSE (GER) 61', </li>
        <li>Paulo WANCHOPE (CRC) 73', </li>
        <li>Torsten FRINGS (GER) 87'</li>
</ul></div>
Run Code Online (Sandbox Code Playgroud)

但我现在已经失去了对于如何隔离它们,并坦言xpathSApplyxpathApply迷惑beejeebies我了!

那么,有没有人知道如何制定一个命令来吸出<div class="cont">标签中包含的元素?

xml r web-scraping rcurl

11
推荐指数
1
解决办法
3841
查看次数

标签 统计

r ×2

web-scraping ×2

xml ×2

html ×1

parsing ×1

rcurl ×1