我是初学者.
我用rvest创建了一个用于网络抓取的小代码.我发现了一个非常方便的代码%>% html_node ()%>% html_text ()%>% as.numeric (),但我无法正确更改用于抓取图像网址的代码.
我的网页抓取网址代码:
UrlPage <- html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")
img <- UrlPage%>% html_node (". wp-image-5984")%>% html_attrs ()
Run Code Online (Sandbox Code Playgroud)
结果:
class "Aligncenter size-full wp-image-5984" `enter code here`title "Blog gdp 2012_10_1" alt '" src "Http://eyeonhousing.files.wordpress.com/2012/11/blog-gdp-2012_10_1.jpg" height "337" width "450"
Run Code Online (Sandbox Code Playgroud)
题.如何获得没有其他属性的唯一链接?(只要 )
请帮我找一个解决方案.谢谢!
您需要指定要提取的属性作为html_attr的参数.此外,您可能希望使CSS选择器(html_node的参数)更具体.这是我的代码:
library(rvest)
UrlPage <- html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")
ImgNode <- UrlPage %>% html_node("img.wp-image-5984")
link <- html_attr(ImgNode, "src")
Run Code Online (Sandbox Code Playgroud)
链接变量现在包含URL.
您可以在这里找到适合css选择器的参考:http: //www.w3schools.com/cssref/css_selectors.asp
此外,rvest文档还有一些关于如何使用其功能的好例子:http://cran.r-project.org/web/packages/rvest/rvest.pdf