如何使用R从html文件中提取数据

Question

如何使用R从html文件中提取数据

我想从GEO网站上提取一些数据,我该怎么做？该网站的网址是http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM410750,我想得到病人的"疾病状态",我用了命令

readLines("http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM410750")

Run Code Online (Sandbox Code Playgroud)

要导入html,我需要的信息是在第288行.有人能帮助我吗？非常感谢你.我会很感激的.

Answer 1

hwn*_*wnd 5

通常,当这样的问题被要求时,需要显示一些努力.因此,请考虑至少在下次尝试的内容上做出努力来说明确切的问题.为了让你开始在这里是用一个例子XML封装和应用的XPath一起strsplit抢期望的结果.

library(XML)
doc <- htmlParse("http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM410750")
x <- xpathSApply(doc, "//td[@style='text-align: justify']/text()[preceding-sibling::br][1]",
    function(X) { strsplit(xmlValue(X), ': ')[[1]][2]
})
# [1] "Uninfected"

Run Code Online (Sandbox Code Playgroud)

归档时间：	11 年，4 月前
查看次数：	1497 次
最近记录：	11 年，4 月前