AWS EMR性能HDFS与S3

Pra*_*ati 5 hadoop mapreduce amazon-s3 hdfs amazon-emr

在大数据中,代码被推向数据以供执行.这是有道理的,因为数据很大并且执行代码相对较小.来到AWS EMR,数据可以是HDFS,也可以是S3.在S3的情况下,必须将数据拉到核心/任务节点以便从一些其他节点执行.与HDFS中的数据相比,这可能有点开销.

最近,我注意到当MR作业执行时,将日志文件导入S3的时间很长.有时,即使在作业完成后,日志文件也会花费几分钟时间显示.

有什么想法吗?是否有人使用HDFS与S3中的数据来完成MR作业完成的指标?

Tho*_*lut 7

这在不同的层面上存在问题.

S3只具有最终的一致性.在您的代码(例如a close()flush())写入内容后,您不会立即看到/可以读取,因为写入过程会延迟.我认为这可能是由于为您编写的数据分配了免费资源.所以这不是性能问题,而是你真正想要/需要的一致性问题.

我该怎么做EMR?我启动了一个Hadoop集群,并将所有内容都放入了HDFS所需的工作.在S3上读取时间要贵得多,并且最终的一致性使得在作业之间缓冲项目基本无用.

但是,从HDFS备份文件或将其用于其他实例或服务(例如CloudFront)时,S3非常棒.

  • 这不是真的。S3在某些地区(即美国东部)具有最终的一致性。写后读一致性在其他任何地方都使用。有关更多信息:http://aws.amazon.com/s3/faqs/#What_data_consistency_model_does_Amazon_S3_employ (2认同)

Nit*_*nil 5

在性能方面 HDFS 优于 S3

如果您的需求是长期的、需要高性能并且您想要执行迭代机器学习算法,那么 HDFS 会更好

如果您的负载是可变的,则 S3 会更好,需要较高的耐用性和持久性且成本较低。

有关更多信息,请访问此链接http://www.nithinkanil.com/2015/05/hdfs-vs-s3.html