小编Cam*_*eno的帖子

使用 Rvest 抓取 <li> 元素

早上好,

\n

我是使用 R 进行抓取的新手,并且很难以有用的方式从网页中抓取元素列表。

\n

这是我的脚本

\n
library(rvest)\n\nurl <- read_html("https://www.pole-emploi.fr/annuaire/provins-77070")\n\nwebpage <- url %>%\n  html_nodes('.zone') %>%\n  html_text()\nwebpage\n \n
Run Code Online (Sandbox Code Playgroud)\n

当我运行脚本时,所有元素都挤在一起,之间没有任何空格,这是可以理解的,因为每个项目都包含在一个单独的元素中

  • 标签。

    \n

     [1] "77114GouaixHerm\xc3\xa9Noyen-sur-SeineVilliers-sur-Seine"                                                                                                                                 \n [2] "77118BalloyBazoches-l\xc3\xa8s-BrayGravon"     \n
    Run Code Online (Sandbox Code Playgroud)\n

    我想让它们像这样(或用逗号分隔)

    \n
    [1] "77114 Gouaix Herm\xc3\xa9 Noyen-sur-Seine Villiers-sur-Seine"                                                                                                                                 \n[2] "77118 Balloy Bazoches-l\xc3\xa8s-Bray Gravon"\n
    Run Code Online (Sandbox Code Playgroud)\n

    或者格式整洁更好

    \n
     Postal City\n 77114  Gouaix\n 77114  Herm\xc3\xa9\n 77114  Noyen-sur-Seine\n 77114  Villiers-sur-Seine\n
    Run Code Online (Sandbox Code Playgroud)\n

    我尝试在页面中找到其他选择器或 Xpath,但没有成功。我最多的就是选择列表中的一个元素。

    \n

    任何帮助将不胜感激。

    \n

    提前致谢。

    \n
  • r rvest

    3
    推荐指数
    1
    解决办法
    3262
    查看次数

    标签 统计

    r ×1

    rvest ×1