仅具有主节点和任务节点的AWS EMR

Vij*_*and 5 emr

当我确定源数据在S3中并且处理后的结果将存储在S3中时,是否可以构建一个具有主节点和一组任务(从属)节点(不包含核心节点)的AWS EMR。

基本上,问题是“当EMR将在S3中处理数据时,需要有Datanode处理什么”(在HD3中我们不存储和使用任何东西)。

Chr*_*erB 2

EMR 中的核心节点提供计算资源以及 HDFS。在 Hadoop 2.x 中,这将由 YARN NodeManager 提供。即使应用程序的输入和输出都在 S3 上,YARN(通常还有 Hive 等其他应用程序层)也会利用 HDFS 来暂存 jar、分割信息、会话数据等。