我想从这样的表中将数据导入R:
http://www.rout.gr/index.php?name=Rout&file=results&year=2011
我尝试按照以下线程的建议使用 XML 库,但我什么也没得到。
我想刮掉一个新的stackexchange网站的主页:https://webapps.stackexchange.com/ (只有一次,只有几个页面,没有什么应该打扰服务器).如果我想从stackoverflow中获取它,我知道有一个数据库转储,但是对于新的stackexchange,它们还不存在.
这就是我想要做的.
第1步:选择URL
URL <- "https://webapps.stackexchange.com/"
Run Code Online (Sandbox Code Playgroud)
第2步:阅读表格
readHTMLTable(URL) # oops, doesn't work - gives NULL
Run Code Online (Sandbox Code Playgroud)
第2步:这一次,让我们尝试用XML
htmlTreeParse(URL) # o.k, this reads the data - but it is all in <div> - now what?
Run Code Online (Sandbox Code Playgroud)
所以我能够阅读页面,但现在结构是div.它现在如何用于创建与readHTMLTable相同的东西?
我正在使用XMLpackage R来解析XML具有以下结构的文件.
<document id="Something" origId="Text">
<sentence id="Something" origId="thisorig" text="Blah Blah.">
<special id="id.s0.i0" origId="1" e1="en1" e2="en2" type="" directed="True"/>
</sentence>
<sentence id="Something" origId="thisorig" text="Blah Blah.">
</sentence>
</document>
Run Code Online (Sandbox Code Playgroud)
我想</special>在一个变量中选择具有标记的节点,</special>在其他变量中选择没有标记的节点.
有可能用R任何指针/答案来做这将是非常有帮助的.
我想抓取这样的表格http://www.oddsportal.com//hockey/usa/nhl/carolina-hurricanes-ottawa-senators-80YZhBGC/ 我想抓取博彩公司和赔率。问题是我不知道那是什么类型的桌子,也不知道如何刮掉它。
这些线程可能能够帮助我(使用 R 抓取 javascript或这是什么类型的 HTML 表以及您可以使用什么类型的网页抓取技术?),但如果有人能给我指出正确的方向或更好的方向,我将不胜感激说明请参见此处。
那么赔率表是一个什么样的表,是否可以用 R 来抓取它?如果可以,如何抓取?
编辑:我应该更清楚。我已经使用 R 抓取数据一段时间了,可能不需要基础知识方面的帮助。经过进一步检查,该表确实是 Javascript,这就是问题所在,也是我需要帮助的地方
我是R的新手,所以如果这很简单直截了当,我道歉.我已成功将网页读入字符向量.我想将此字符串拆分为较小的段,以便我可以提取一些数据.到目前为止,这么容易.
问题是我是regex和R的新手,所以这对我来说非常困难.我只是想缩短字符串,使其包含之间的所有内容
<div class="appForm"
and
</div>
Run Code Online (Sandbox Code Playgroud)
出于某种原因,我很难使用stringr包和?str_match.
任何帮助 - 更有效的解决方案 - 将非常感谢.网络抓取的新手,但决定留在R内.
用于分析Internet上的文档!
我的df2:
League freq
18 England 108
27 Italy 79
20 Germany 74
43 Spain 64
19 France 49
39 Russia 34
31 Mexico 27
47 Turkey 24
32 Netherlands 23
37 Portugal 21
49 United States 18
29 Japan 16
25 Iran 15
7 Brazil 13
22 Greece 13
14 Costa 11
45 Switzerland 11
5 Belgium 10
17 Ecuador 10
23 Honduras 10
42 South Korea 9
2 Argentina 8
48 Ukraine 7
3 Australia 6
11 …Run Code Online (Sandbox Code Playgroud) r ×6
web-scraping ×2
import ×1
javascript ×1
php ×1
python ×1
scrape ×1
string ×1
text-mining ×1
wc ×1
xml ×1