相关疑难解决方法(0)

使用 R 从 php 网站读取数据

我想从这样的表中将数据导入R

http://www.rout.gr/index.php?name=Rout&file=results&year=2011

我尝试按照以下线程的建议使用 XML 库,但我什么也没得到。

使用 XML 包将 html 表抓取到 R 数据框

php import r web-scraping

4
推荐指数
1
解决办法
2936
查看次数

如何从stackexchange主页抓取"表格式"数据?(在R中)

我想刮掉一个新的stackexchange网站的主页:https://webapps.stackexchange.com/ (只有一次,只有几个页面,没有什么应该打扰服务器).如果我想从stackoverflow中获取它,我知道有一个数据库转储,但是对于新的stackexchange,它们还不存在.

这就是我想要做的.

第1步:选择URL

URL <- "https://webapps.stackexchange.com/"
Run Code Online (Sandbox Code Playgroud)

第2步:阅读表格

readHTMLTable(URL)  # oops, doesn't work - gives NULL
Run Code Online (Sandbox Code Playgroud)

第2步:这一次,让我们尝试用XML

htmlTreeParse(URL) # o.k, this reads the data - but it is all in <div> - now what?
Run Code Online (Sandbox Code Playgroud)

所以我能够阅读页面,但现在结构是div.它现在如何用于创建与readHTMLTable相同的东西?

r web-scraping

3
推荐指数
1
解决办法
556
查看次数

在R中选择特定的XML节点?

我正在使用XMLpackage R来解析XML具有以下结构的文件.

 <document id="Something" origId="Text">
    <sentence id="Something" origId="thisorig" text="Blah Blah.">
    <special id="id.s0.i0" origId="1" e1="en1" e2="en2" type="" directed="True"/>
    </sentence>
     <sentence id="Something" origId="thisorig" text="Blah Blah.">
      </sentence>
</document>
Run Code Online (Sandbox Code Playgroud)

我想</special>在一个变量中选择具有标记的节点,</special>在其他变量中选择没有标记的节点.

有可能用R任何指针/答案来做这将是非常有帮助的.

xml r

3
推荐指数
1
解决办法
9570
查看次数

使用 R 抓取 xml/javascript 表

我想抓取这样的表格http://www.oddsportal.com//hockey/usa/nhl/carolina-hurricanes-ottawa-senators-80YZhBGC/ 我想抓取博彩公司和赔率。问题是我不知道那是什么类型的桌子,也不知道如何刮掉它。

这些线程可能能够帮助我(使用 R 抓取 javascript这是什么类型的 HTML 表以及您可以使用什么类型的网页抓取技术?),但如果有人能给我指出正确的方向或更好的方向,我将不胜感激说明请参见此处。

那么赔率表是一个什么样的表,是否可以用 R 来抓取它?如果可以,如何抓取?

编辑:我应该更清楚。我已经使用 R 抓取数据一段时间了,可能不需要基础知识方面的帮助。经过进一步检查,该表确实是 Javascript,这就是问题所在,也是我需要帮助的地方

javascript r scrape

3
推荐指数
1
解决办法
3598
查看次数

正则表达式模式匹配一​​个字符

我是R的新手,所以如果这很简单直截了当,我道歉.我已成功将网页读入字符向量.我想将此字符串拆分为较小的段,以便我可以提取一些数据.到目前为止,这么容易.

问题是我是regex和R的新手,所以这对我来说非常困难.我只是想缩短字符串,使其包含之间的所有内容

<div class="appForm"

and 

</div>
Run Code Online (Sandbox Code Playgroud)

出于某种原因,我很难使用stringr包和?str_match.

任何帮助 - 更有效的解决方案 - 将非常感谢.网络抓取的新手,但决定留在R内.

string r

1
推荐指数
1
解决办法
631
查看次数

0
推荐指数
1
解决办法
3141
查看次数

从df中选择"europe"

我的df2:

          League freq
18       England  108
27         Italy   79
20       Germany   74
43         Spain   64
19        France   49
39        Russia   34
31        Mexico   27
47        Turkey   24
32   Netherlands   23
37      Portugal   21
49 United States   18
29         Japan   16
25          Iran   15
7         Brazil   13
22        Greece   13
14         Costa   11
45   Switzerland   11
5        Belgium   10
17       Ecuador   10
23      Honduras   10
42   South Korea    9
2      Argentina    8
48       Ukraine    7
3      Australia    6
11 …
Run Code Online (Sandbox Code Playgroud)

r wc

0
推荐指数
1
解决办法
78
查看次数