Mar*_*rko 10 hadoop amazon-s3 amazon-ec2 amazon-web-services amazon-emr
使用MapReduce和HDFS的数据位置非常重要(同样适用于Spark,HBase).在云中部署集群时,我一直在研究AWS以及两个选项:
第二种选择似乎更有吸引力,原因各不相同,其中最有趣的是能够分别扩展存储和处理以及在不需要时关闭处理(更正确,仅在需要时打开它).这是一个解释使用S3的优点的示例.
让我烦恼的是数据局部性的问题.如果数据存储在S3中,则每次运行作业时都需要将其拉到HDFS.我的问题是 - 这个问题有多大,它还值得吗?
令我感到安慰的是,我将在第一次提取数据,然后所有下一个工作将在本地获得中间结果.
我正在寻找一些有实际经验的人的答案.谢谢.
EMR 不会将数据从 S3 拉取到 HDFS。它在 S3 上使用自己的 HDFS 支持实现(就像您在实际的 HDFS 上操作一样)。https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-fs.html
至于数据局部性,S3 是RACK_LOCAL
EMR 火花集群。
归档时间: |
|
查看次数: |
743 次 |
最近记录: |