Sha*_*ane 46
该datasets程序包包含在基础R中.运行此命令可查看完整列表:
library(help="datasets")
Run Code Online (Sandbox Code Playgroud)
除此之外,还有许多可以提取数据的软件包,以及许多其他包含重要数据的软件包.其中,您可能希望从查看HistData包开始,该包"提供了统计和数据可视化历史中有趣且重要的小数据集合".
对于财务数据,该quantmod软件包提供了一个通用界面,用于从谷歌,雅虎,FRED和其他人那里提取时间序列数据:
library(quantmod)
getSymbols("YHOO",src="google") # from google finance
getSymbols("GOOG",src="yahoo") # from yahoo finance
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED
Run Code Online (Sandbox Code Playgroud)
FRED(圣路易斯联邦储备银行)确实是自由经济数据的地雷.
许多R软件包捆绑了特定于其目标的数据.因此,如果您对遗传学,多级模型等感兴趣,相关的包将经常具有该分析的规范示例.此外,书籍包通常附带重现所有示例所需的数据.
以下是相关包的一些示例:
网上广泛的选择.例如,这是一个庞大的体育数据库目录(所有数据都免费提供,至少这是我的经验).在该目录中是databaseBaseball.com,其中包含自1915年左右以来曾经玩过职业棒球的每个玩家的完整数据集.
StatLib是另一个优秀的资源 - 非常方便.这个单一的网页列出了超过一百个数据库的4-5行摘要,所有数据库都可以通过单击每个数据集摘要开头的"表"链接以平面文件形式提供.
R的基本分布预先包装了大量不同的数据集(在R 2.10中为122).要获取它们的列表(以及单行描述):
data(package="datasets")
Run Code Online (Sandbox Code Playgroud)
同样,大多数软件包都带有几个数据集(有时甚至更多).你可以用同样的方式看到它们:
data(package="latticeExtra")
data(package="vcd")
Run Code Online (Sandbox Code Playgroud)
这些数据集是包装手册和给定包装的插图中提到的数据集,用于说明包装功能.
一些包含大量数据集的R包(同样易于扫描,因此您可以选择有趣的内容):AER,DAAG和vcd.
我发现R的另一个令人印象深刻的是它的I/O. 假设您想通过yahoo finance API获取一些非常具体的财务数据.让我们说从2001年到2009年每个月关闭标准普尔500指数的开盘价和收盘价,只需这样做:
tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
"s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv"))
Run Code Online (Sandbox Code Playgroud)
在这一行代码中,R获取了tick数据,将其整形为数据帧并将其绑定到'tick_data'.(这是一个方便的备忘单,带有用于构建URL的Yahoo Finance API符号,如上所述)
最近由Tim Berners-Lee设立
显然是基于英国的数据,但这应该不重要.涵盖从废弃汽车到学校缺勤到农产品价格指数的所有内容
寻找经济数据的良好开端始终是以下三个地址:
发展经济学家的数据集链接的一个很好的总结可以在以下位置找到:
编辑:
世界银行上周决定开放许多以前非免费的数据集,并在其修订后的主页上在线发布。新的互联网外观看起来也很不错。