Hadoop-MapReduce的小数据集

Question

我正在努力熟悉Hadoop-MapReduce.在研究了这个概念的理论知识之后,我想对它们进行练习.

但是,我找不到这项技术的小数据集(最高3 Gb).我在哪里可以找到数据集来练习？

或者,我如何练习Hadoop-MapReduce？换句话说,有没有提供练习的教程或网站？

Answer 1

可以下载和使用的可公开访问的数据集.以下是一些例子.

http://www.netflixprize.com/index - 作为竞赛的一部分,它发布了一个用户评级数据集,以挑战人们开发更好的推荐算法.未压缩的数据为2 GB +.它包含来自17 K电影的480 K用户的100 M +电影评级.

http://aws.amazon.com/publicdatasets/ - 例如,其中一个生物数据集是大约550 GB的带注释的人类基因组数据.根据经济学,您可以找到数据集,例如2000年美国人口普查(约200 GB).

http://boston.lti.cs.cmu.edu/Data/clueweb09/ -Carnegie梅隆大学语言技术研究所发布了ClueWeb09数据集,以帮助进行大规模的网络研究.这是10种语言的十亿个网页的爬行.未压缩的数据集占用25 TB.

Answer 2

为什么不自己创建一些数据集？

一个非常简单的事情是填充一个包含数百万随机数的文件,然后使用Hadoop查找重复项,三元组,素数,在其因子中有重复的数字等等.

当然,它并不像寻找常见的Facebook朋友那么有趣,但是它应该足以让我获得一些Hadoop练习.