Avk*_*han 28
我建议你从以下网站下载百万首歌曲Dataset:
http://labrosa.ee.columbia.edu/millionsong/
Millions Songs Dataset的最佳之处在于,您可以将1GB(约10000首歌曲),10GB,50GB或约300GB数据集下载到您的Hadoop群集中,并进行您想要的任何测试.我喜欢使用它并使用这个数据集学到很多东西.
首先,您可以从AZ下载任何一个字母的数据集开始,其范围从1GB到20GB ..您还可以使用Infochimp站点:
http://www.infochimps.com/collections/million-songs
在我的一个博客中,我展示了如何下载1GB数据集并运行Pig脚本:
Jag*_*uri 16
Tom White在他的书中提到了一个样本天气数据集(Hadoop:权威指南).
http://hadoopbook.com/code.html
数据可用超过100年.
我wget在linux中用来提取数据.对于2007年本身,数据大小为27 GB.
它作为FTP链接托管.因此,您可以使用任何FTP实用程序下载.
ftp://ftp.ncdc.noaa.gov/pub/data/noaa/
有关详细信息,请查看我的博客:
http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html
Dav*_*man 10
在亚马逊上有公共数据集availbale:
http ://aws.amazon.com/publicdatasets/
我建议考虑在那里运行演示集群 - 从而节省下载.
来自Common Crawl的群集网络也有很好的数据集,也可以在亚马逊s3上找到.http://commoncrawl.org/
use*_*188 10
您可能感兴趣的文章" 使用Hadoop使用WikiHadoop分析完整的Wikipedia转储文件 ".
如果您正在浏览维基百科页面查看统计信息,那么这可能有所帮助.您可以从2007年下载页面计数文件,直到当前日期.只是想知道文件的大小,一天1.9 GB(这里我选择2012-05-01)分布在24个文件中.
目前,有31个国家的网站提供各种格式的公共数据,http://www.data.gov/opendatasites.此外,世界银行在http://data.worldbank.org/data-catalog上提供数据