如何使用XML包刮取html表?
以巴西足球队的维基百科页面为例.我想在R中阅读并获得"巴西队对阵FIFA认可球队所有比赛的名单"表作为data.frame.我怎样才能做到这一点?
下面的两个帖子是从网站提取数据并将其解析为R的不同方法的很好的例子.
我对编程非常陌生,刚开始使用R,所以我希望这个问题非常基本,但考虑到上面的那些帖子,我想是的.
我要做的就是提取与给定模式匹配的链接.我觉得我可以使用RCurl来读取网页并使用字符串表达式提取它们的暴力方法.也就是说,如果网页形成得相当好,我将如何使用XML包进行此操作.
随着我了解更多,我喜欢在查看问题时"查看"数据.问题是这些方法中的一些生成了列表列表等列表,因此新的(像我)这样的人很难走到我需要去的地方.
同样,我对所有编程都是新手,所以任何帮助或代码片段都将不胜感激.
我是R的新手,所以如果这很简单直截了当,我道歉.我已成功将网页读入字符向量.我想将此字符串拆分为较小的段,以便我可以提取一些数据.到目前为止,这么容易.
问题是我是regex和R的新手,所以这对我来说非常困难.我只是想缩短字符串,使其包含之间的所有内容
<div class="appForm"
and
</div>
Run Code Online (Sandbox Code Playgroud)
出于某种原因,我很难使用stringr包和?str_match.
任何帮助 - 更有效的解决方案 - 将非常感谢.网络抓取的新手,但决定留在R内.