下载Hadoop的大数据

Nev*_*vis 38 hadoop download

我需要一个大数据(超过10GB)来运行Hadoop演示.任何人都知道我可以下载它.请告诉我.

Avk*_*han 28

我建议你从以下网站下载百万首歌曲Dataset:

http://labrosa.ee.columbia.edu/millionsong/

Millions Songs Dataset的最佳之处在于,您可以将1GB(约10000首歌曲),10GB,50GB或约300GB数据集下载到您的Hadoop群集中,并进行您想要的任何测试.我喜欢使用它并使用这个数据集学到很多东西.

首先,您可以从AZ下载任何一个字母的数据集开始,其范围从1GB到20GB ..您还可以使用Infochimp站点:

http://www.infochimps.com/collections/million-songs

在我的一个博客中,我展示了如何下载1GB数据集并运行Pig脚本:

http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-apache-hadoop-on-windows-azure.aspx


Jag*_*uri 16

Tom White在他的书中提到了一个样本天气数据集(Hadoop:权威指南).

http://hadoopbook.com/code.html

数据可用超过100年.

wget在linux中用来提取数据.对于2007年本身,数据大小为27 GB.

它作为FTP链接托管.因此,您可以使用任何FTP实用程序下载.

ftp://ftp.ncdc.noaa.gov/pub/data/noaa/

有关详细信息,请查看我的博客:

http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html


Dav*_*man 10

在亚马逊上有公共数据集availbale:
http ://aws.amazon.com/publicdatasets/
我建议考虑在那里运行演示集群 - 从而节省下载.
来自Common Crawl的群集网络也有很好的数据集,也可以在亚马逊s3上找到.http://commoncrawl.org/


use*_*188 10

您可能感兴趣的文章" 使用Hadoop使用WikiHadoop分析完整的Wikipedia转储文件 ".

如果您正在浏览维基百科页面查看统计信息,那么可能有所帮助.您可以从2007年下载页面计数文件,直到当前日期.只是想知道文件的大小,一天1.9 GB(这里我选择2012-05-01)分布在24个文件中.

目前,有31个国家的网站提供各种格式的公共数据,http://www.data.gov/opendatasites.此外,世界银行在http://data.worldbank.org/data-catalog上提供数据


Mar*_*rts 0

生成数据可能比下载并发布数据更快。这样做的好处是可以让您控制问题领域,并让您的演示对观看的人有意义。