rvest-在1个标签中抓取2个类

Question

rvest-在1个标签中抓取2个类

add*_*ted 4 html r web-scraping scrape rvest

我是rvest的新手。如何在标记中使用2个类名或仅1个类名提取这些元素？

这是我的代码和问题：

doc <- paste("<html>",
             "<body>",
             "<span class='a1 b1'> text1 </span>",
             "<span class='b1'> text2 </span>",
             "</body>",
             "</html>"
            )
library(rvest)
read_html(doc) %>% html_nodes(".b1")  %>% html_text()
#output: text1, text2
#what i want: text2

#I also want to extract only elements with 2 class names
read_html(doc) %>% html_nodes(".a1 .b1") %>% html_text()
# Output that i want: text1

Run Code Online (Sandbox Code Playgroud)

这是我的机器规格：

作业系统：Windows 10。

RVest版本：0.3.2

R version 3.3.3 (2017-03-06)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)

Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗？

Answer 1

Psi*_*dom 5

您可以使用css选择器，如下所示：

选择类b1不包含a1：

read_html(doc) %>% html_nodes(".b1:not(.a1)")
# {xml_nodeset (1)}
# [1] <span class="b1"> text2 </span>

Run Code Online (Sandbox Code Playgroud)

或使用属性选择器：

read_html(doc) %>% html_nodes("[class='b1']")
# {xml_nodeset (1)}
# [1] <span class="b1"> text2 </span>

Run Code Online (Sandbox Code Playgroud)

选择类包含以下两者：

read_html(doc) %>% html_nodes(".a1.b1")
# {xml_nodeset (1)}
# [1] <span class="a1 b1"> text1 </span>

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，3 月前
查看次数：	3404 次
最近记录：	8 年，3 月前