Sor*_*tum 2 r web-scraping rvest
该方法html_text()(来自 R Package rvest)连接节点及其所有子节点的文本。我只想提取父亲的文字。
对于下面的例子,html_text()给出HELLO GOODBYE。
我只想得到GOODBYE。我怎么才能得到它?
<div class="joke">
<div class="div_inside">
<div class="title_inside">
<a class="link" href="sompage.htm">HELLO</a>
</div>
</div>
GOODBYE
</div>Run Code Online (Sandbox Code Playgroud)
尝试使用 xpath获取div带有class“笑话”的主标签而不选择其子标签:
library(rvest)
read_html('your_html_script') %>%
html_nodes(xpath = '//div[@class="joke"]/node()[not(self::div)]') %>%
html_text()
Run Code Online (Sandbox Code Playgroud)
谢谢!