相关疑难解决方法(0)

使用XML包将html表刮入R数据帧

如何使用XML包刮取html表?

巴西足球队的维基百科页面为例.我想在R中阅读并获得"巴西队对阵FIFA认可球队所有比赛的名单"表作为data.frame.我怎样才能做到这一点?

html xml parsing r web-scraping

151
推荐指数
4
解决办法
11万
查看次数

如何使用R(Rcurl/XML包?!)来抓取这个网页?

我有一个(有点复杂的)网络抓取挑战,我希望完成,并希望在某个方向(你想分享的任何级别)这里:

我想通过此链接中的所有"物种页面":

http://gtrnadb.ucsc.edu/

所以对于他们每个人我会去:

  1. 物种页面链接(例如:http://gtrnadb.ucsc.edu/Aero_pern/)
  2. 然后到"二级结构"页面链接(例如:http://gtrnadb.ucsc.edu/Aero_pern/Aero_pern-structs.html)

在该链接中,我希望废弃页面中的数据,以便我将有一个包含此数据的长列表(例如):

chr.trna3 (1-77)    Length: 77 bp
Type: Ala   Anticodon: CGC at 35-37 (35-37) Score: 93.45
Seq: GGGCCGGTAGCTCAGCCtGGAAGAGCGCCGCCCTCGCACGGCGGAGGcCCCGGGTTCAAATCCCGGCCGGTCCACCA
Str: >>>>>>>..>>>>.........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<<<<<<<....
Run Code Online (Sandbox Code Playgroud)

每一行都有自己的列表(在每个动物列表中每个"trna"的列表内)

我记得看过Rcurl和XML(在R中)可以允许这样的任务.但我不知道如何使用它们.所以我希望拥有的是:1.关于如何构建这样的代码的一些建议.2.并建议如何学习执行此类任务所需的知识.

谢谢你的帮助,

塔尔

r web-scraping

10
推荐指数
1
解决办法
9926
查看次数

如何使用readLines和grep在R中构建webscraper?

我是R的新手.我想编写一份100万字的报纸文章.所以我想写一个网络刮刀从例如监护人的网站上检索报纸上的文章:http://www.guardian.co.uk/politics/2011/oct/31/nick-clegg-investment-new-jobs.

刮刀用于从一页开始,检索文章的正文,删除所有标签并将其保存到文本文件中.然后它应该通过本页面上的链接转到下一篇文章,获取文章等,直到该文件包含大约100万字.

不幸的是,我的刮刀并没有走得太远.

我使用readLines()来访问网站的源代码,现在想要获取代码中的相关行.

Guardian中的相关部分使用此ID来标记文章的正文:

<div id="article-body-blocks">         
  <p>
    <a href="http://www.guardian.co.uk/politics/boris"
       title="More from guardian.co.uk on Boris Johnson">Boris Johnson</a>,
       the...a different approach."
  </p>
</div>
Run Code Online (Sandbox Code Playgroud)

我尝试使用grep和lookbehind的各种表达式来掌握这一部分 - 尝试获取此ID后面的行 - 但我认为它不适用于多行.至少我不能让它发挥作用.

有人可以帮忙吗?如果有人可以提供一些我可以继续工作的代码,那将是很棒的!

谢谢.

r web-scraping

5
推荐指数
1
解决办法
4050
查看次数

标签 统计

r ×3

web-scraping ×3

html ×1

parsing ×1

xml ×1