S3和EMR数据位置

Question

使用MapReduce和HDFS的数据位置非常重要(同样适用于Spark,HBase).在云中部署集群时,我一直在研究AWS以及两个选项:

第二种选择似乎更有吸引力,原因各不相同,其中最有趣的是能够分别扩展存储和处理以及在不需要时关闭处理(更正确,仅在需要时打开它).这是一个解释使用S3的优点的示例.

让我烦恼的是数据局部性的问题.如果数据存储在S3中,则每次运行作业时都需要将其拉到HDFS.我的问题是 - 这个问题有多大,它还值得吗？

令我感到安慰的是,我将在第一次提取数据,然后所有下一个工作将在本地获得中间结果.

我正在寻找一些有实际经验的人的答案.谢谢.

Answer 1

EMR 不会将数据从 S3 拉取到 HDFS。它在 S3 上使用自己的 HDFS 支持实现（就像您在实际的 HDFS 上操作一样）。https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-fs.html

至于数据局部性，S3 是RACK_LOCALEMR 火花集群。