Rgl*_*ish 2 r css-selectors rvest
我正在尝试使用 R 和 SelectorGadget 中的 rvest 包来识别我的 CSS 选择器,从 Glassdoor(API 仅提供摘要评级)中提取单个评级。
问题是 Glassdoor 使用图像来传达评级,但数字评级包含在图像标题中。使用 SelectorGadget,我可以从下面的代码片段中抓取“Comp & Benefits”文本(使用“#EmployerReviews undecorated li”),但我无法进入 span...title= 部分中的“2.0”是我想要的。
<div id='EmployerReviews'> .... <ul class='undecorated'> <li> <div class='minor'>Comp & Benefits</div> <span class='notranslate notranslate_title gdBars gdRatings med ' title="2.0">
Run Code Online (Sandbox Code Playgroud)
过去有没有人成功抓取图片标题,或者知道获得这些个人评分的另一种方法?
您将需要选择跨度,并使用它html_attr()来提取其属性值:
html <- html("...")
rating <- html %>%
html_nodes("#EmployerReviews .undecorated li span.gdRatings") %>%
html_attr("title")
rating
# [1] "2.0"
Run Code Online (Sandbox Code Playgroud)