使用'rvest'来提取链接

Question

使用'rvest'来提取链接

我试图从Yelp中删除数据.一步是从每个餐馆提取链接.例如,我搜索纽约的餐馆并获得一些结果.然后我想提取Yelp在第1页上推荐的所有10家餐厅的链接.这是我尝试过的:

library(rvest)     
page=read_html("http://www.yelp.com/search?find_loc=New+York,+NY,+USA")
page %>% html_nodes(".biz-name span") %>% html_attr('href')

Run Code Online (Sandbox Code Playgroud)

但代码总是返回'NA'.任何人都可以帮助我吗？谢谢!

Answer 1

Bha*_*ath 26

library(rvest)     
page <- read_html("http://www.yelp.com/search?find_loc=New+York,+NY,+USA")
page %>% html_nodes(".biz-name") %>% html_attr('href')

Run Code Online (Sandbox Code Playgroud)

希望这会简化你的问题

Answer 2

Oli*_*ant 6

我还能够清除上面的结果，这对我来说很吵

links <- page %>% html_nodes("a") %>% html_attr("href")

与简单的正则表达式字符串匹配

links <- links[which(regexpr('common-url-element', links) >= 1)]。

归档时间：	10 年前
查看次数：	13861 次
最近记录：	7 年，2 月前