相关疑难解决方法(0)

使用XML包将html表刮入R数据帧

如何使用XML包刮取html表?

巴西足球队的维基百科页面为例.我想在R中阅读并获得"巴西队对阵FIFA认可球队所有比赛的名单"表作为data.frame.我怎样才能做到这一点?

html xml parsing r web-scraping

151
推荐指数
4
解决办法
11万
查看次数

使用R从网页中提取链接

下面的两个帖子是从网站提取数据并将其解析为R的不同方法的很好的例子.

使用XML包将html表刮入R数据帧

我如何使用R(Rcurl/XML包?!)来抓取这个网页

我对编程非常陌生,刚开始使用R,所以我希望这个问题非常基本,但考虑到上面的那些帖子,我想是的.

我要做的就是提取与给定模式匹配的链接.我觉得我可以使用RCurl来读取网页并使用字符串表达式提取它们的暴力方法.也就是说,如果网页形成得相当好,我将如何使用XML包进行此操作.

随着我了解更多,我喜欢在查看问题时"查看"数据.问题是这些方法中的一些生成了列表列表等列表,因此新的(像我)这样的人很难走到我需要去的地方.

同样,我对所有编程都是新手,所以任何帮助或代码片段都将不胜感激.

r web-scraping

26
推荐指数
2
解决办法
3万
查看次数

正则表达式模式匹配一​​个字符

我是R的新手,所以如果这很简单直截了当,我道歉.我已成功将网页读入字符向量.我想将此字符串拆分为较小的段,以便我可以提取一些数据.到目前为止,这么容易.

问题是我是regex和R的新手,所以这对我来说非常困难.我只是想缩短字符串,使其包含之间的所有内容

<div class="appForm"

and 

</div>
Run Code Online (Sandbox Code Playgroud)

出于某种原因,我很难使用stringr包和?str_match.

任何帮助 - 更有效的解决方案 - 将非常感谢.网络抓取的新手,但决定留在R内.

string r

1
推荐指数
1
解决办法
631
查看次数

标签 统计

r ×3

web-scraping ×2

html ×1

parsing ×1

string ×1

xml ×1