Rvest：获取节点文本而不是其子文本

Question

Rvest：获取节点文本而不是其子文本

该方法html_text()（来自 R Package rvest）连接节点及其所有子节点的文本。我只想提取父亲的文字。

对于下面的例子，html_text()给出HELLO GOODBYE。

我只想得到GOODBYE。我怎么才能得到它？

<div class="joke">
  <div class="div_inside">
    <div class="title_inside">
      <a class="link" href="sompage.htm">HELLO</a>
    </div>
  </div>
  GOODBYE
</div>

Run Code Online (Sandbox Code Playgroud)

Answer 1

Abd*_*dou 5

尝试使用 xpath获取div带有class“笑话”的主标签而不选择其子标签：

library(rvest)

read_html('your_html_script') %>%
    html_nodes(xpath = '//div[@class="joke"]/node()[not(self::div)]') %>% 
    html_text()

Run Code Online (Sandbox Code Playgroud)

谢谢！

归档时间：	9 年，4 月前
查看次数：	1756 次
最近记录：	9 年，4 月前