下载Hadoop的大数据

Nev*_*vis 38 hadoop download

我需要一个大数据(超过10GB)来运行Hadoop演示.任何人都知道我可以下载它.请告诉我.

我建议你从以下网站下载百万首歌曲Dataset:

http://labrosa.ee.columbia.edu/millionsong/

Millions Songs Dataset的最佳之处在于,您可以将1GB(约10000首歌曲),10GB,50GB或约300GB数据集下载到您的Hadoop群集中,并进行您想要的任何测试.我喜欢使用它并使用这个数据集学到很多东西.

首先,您可以从AZ下载任何一个字母的数据集开始,其范围从1GB到20GB ..您还可以使用Infochimp站点:

http://www.infochimps.com/collections/million-songs

在我的一个博客中,我展示了如何下载1GB数据集并运行Pig脚本:

http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-apache-hadoop-on-windows-azure.aspx

Tom White在他的书中提到了一个样本天气数据集(Hadoop:权威指南).

http://hadoopbook.com/code.html

数据可用超过100年.

我wget在linux中用来提取数据.对于2007年本身,数据大小为27 GB.

它作为FTP链接托管.因此,您可以使用任何FTP实用程序下载.

ftp://ftp.ncdc.noaa.gov/pub/data/noaa/

有关详细信息,请查看我的博客:

http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html

在亚马逊上有公共数据集availbale:
http ://aws.amazon.com/publicdatasets/
我建议考虑在那里运行演示集群 - 从而节省下载.
来自Common Crawl的群集网络也有很好的数据集,也可以在亚马逊s3上找到.http://commoncrawl.org/

您可能感兴趣的文章" 使用Hadoop使用WikiHadoop分析完整的Wikipedia转储文件 ".

如果您正在浏览维基百科页面查看统计信息,那么这可能有所帮助.您可以从2007年下载页面计数文件,直到当前日期.只是想知道文件的大小,一天1.9 GB(这里我选择2012-05-01)分布在24个文件中.

目前,有31个国家的网站提供各种格式的公共数据,http://www.data.gov/opendatasites.此外,世界银行在http://data.worldbank.org/data-catalog上提供数据

生成数据可能比下载并发布数据更快。这样做的好处是可以让您控制问题领域，并让您的演示对观看的人有意义。

归档时间：	13 年，5 月前
查看次数：	64100 次
最近记录：	9 年，10 月前

Eclipse更新速度非常慢 22

JavaScript Max Blob大小是否有任何限制 18

如何在极小的集群(3个或更少节点)上附加到hdfs文件 12

wget：获取匹配正则表达式的文件 9

在python中取消慢下载 8

在 Hive 中处理行时出现 Hive 运行时错误 8

如何使用Spark捆绑S3中的许多文件 7

对存储在Hive中的数据运行Pig查询 6

为什么join和group by会影响spark中的数据shuffle量 6

在Pig中对袋子的不同值进行计数 3

可以在JSON中使用注释吗？ 7104

何时在Java中使用LinkedList而不是ArrayList？ 2974

数据库索引如何工作？ 2335

从HTML页面重定向 1523

Python的隐藏功能 1419

如何检查对象是否在JavaScript中具有属性？ 1396

在Android上旋转活动重启 1341

如何在git中按名称命名和检索存储？ 1276

忽略git项目中的任何"bin"目录 1172

endsWith在JavaScript中 1085