小编jav*_*ebo的帖子

R:rvest提取innerHTML

使用R中的rvest来抓取网页,我想从节点中提取相应的内容innerHTML,特别是在应用之前将换行符更改为换行符html_text.

所需功能的示例:

library(rvest)
doc <- read_html('<html><p class="pp">First Line<br />Second Line</p>')
innerHTML(doc, ".pp")
Run Code Online (Sandbox Code Playgroud)

应产生以下输出:

[1] "<p class=\"pp\">First Line<br>Second Line</p>"
Run Code Online (Sandbox Code Playgroud)

有了rvest 0.2这个就可以实现toString.XMLNode

# run under rvest 0.2
library(XML)
html('<html><p class="pp">First Line<br />Second Line</p>') %>% 
  html_node(".pp") %>% 
  toString.XMLNode
[1] "<p class=\"pp\">First Line<br>Second Line</p>"
Run Code Online (Sandbox Code Playgroud)

随着更新,rvest 0.2.0.900这不再起作用.

# run under rvest 0.2.0.900
library(XML)
html_node(doc,".pp") %>% 
  toString.XMLNode
[1] "{xml_node}\n<p>\n[1] <br/>"
Run Code Online (Sandbox Code Playgroud)

所需的功能通常在write_xml包的功能中可用xml2,rvest现在取决于 - 如果只能write_xml将其输出提供给变量而不是坚持写入文件.(也是textConnection不接受的). …

r tostring innerhtml web-scraping rvest

9
推荐指数
1
解决办法
1542
查看次数

标签 统计

innerhtml ×1

r ×1

rvest ×1

tostring ×1

web-scraping ×1