可以下载和使用的可公开访问的数据集.以下是一些例子.
http://www.netflixprize.com/index - 作为竞赛的一部分,它发布了一个用户评级数据集,以挑战人们开发更好的推荐算法.未压缩的数据为2 GB +.它包含来自17 K电影的480 K用户的100 M +电影评级.
http://aws.amazon.com/publicdatasets/ - 例如,其中一个生物数据集是大约550 GB的带注释的人类基因组数据.根据经济学,您可以找到数据集,例如2000年美国人口普查(约200 GB).
http://boston.lti.cs.cmu.edu/Data/clueweb09/ -Carnegie梅隆大学语言技术研究所发布了ClueWeb09数据集,以帮助进行大规模的网络研究.这是10种语言的十亿个网页的爬行.未压缩的数据集占用25 TB.
为什么不自己创建一些数据集?
一个非常简单的事情是填充一个包含数百万随机数的文件,然后使用Hadoop查找重复项,三元组,素数,在其因子中有重复的数字等等.
当然,它并不像寻找常见的Facebook朋友那么有趣,但是它应该足以让我获得一些Hadoop练习.
| 归档时间: |
|
| 查看次数: |
7384 次 |
| 最近记录: |