小编Cam*_*eno的帖子

使用 Rvest 抓取 <li> 元素

早上好，

我是使用 R 进行抓取的新手，并且很难以有用的方式从网页中抓取元素列表。

这是我的脚本

library(rvest)\n\nurl <- read_html("https://www.pole-emploi.fr/annuaire/provins-77070")\n\nwebpage <- url %>%\n  html_nodes('.zone') %>%\n  html_text()\nwebpage\n \n

Run Code Online (Sandbox Code Playgroud)\n

当我运行脚本时，所有元素都挤在一起，之间没有任何空格，这是可以理解的，因为每个项目都包含在一个单独的元素中

标签。

 [1] "77114GouaixHerm\xc3\xa9Noyen-sur-SeineVilliers-sur-Seine"                                                                                                                                 \n [2] "77118BalloyBazoches-l\xc3\xa8s-BrayGravon"     \n

Run Code Online (Sandbox Code Playgroud)\n

我想让它们像这样（或用逗号分隔）

[1] "77114 Gouaix Herm\xc3\xa9 Noyen-sur-Seine Villiers-sur-Seine"                                                                                                                                 \n[2] "77118 Balloy Bazoches-l\xc3\xa8s-Bray Gravon"\n

Run Code Online (Sandbox Code Playgroud)\n

或者格式整洁更好

 Postal City\n 77114  Gouaix\n 77114  Herm\xc3\xa9\n 77114  Noyen-sur-Seine\n 77114  Villiers-sur-Seine\n

Run Code Online (Sandbox Code Playgroud)\n

我尝试在页面中找到其他选择器或 Xpath，但没有成功。我最多的就是选择列表中的一个元素。

任何帮助将不胜感激。

提前致谢。

r rvest

Cam*_*eno

2021 02-01

3
推荐指数

1
解决办法

3262
查看次数

标签统计

r ×1

rvest ×1

使用 Rvest 抓取 &lt;li&gt; 元素

标签 统计

小编Cam_eno的帖子

使用 Rvest 抓取 <li> 元素

标签统计