EC2上的Hadoop与弹性地图减少

Ock*_*zor 16 hadoop amazon-web-services

我正在尝试评估这两个选项之间的差异.以下是我能想到的一些优缺点:

弹性的Map Reduce =>更好地支持亚马逊,无需管理集群,更昂贵的(?)EC2 + Hadoop的=>更多的控制您的Hadoop配置的,更便宜(?)

我想知道是否有人可能已经对EC2 + Hadoop与EMR的性能进行了对比?大型集群部署的成本是否存在显着差异?存在哪些其他差异?

Ama*_*mar 6

那么,管理/监视/维护集群本身并不是一项小任务.使用EMR,您可以立即使用自定义引导代码配置并启动并运行EMR.除了做所有这些事情外,EMR还提供了许多其他工具/选项/设施.

在完成作业后,您不必担心终止集群,您可以在EC2 + Hadoop设置中为自己实现一种方法,但EMR会以一种简洁的方式为您完成此操作.

即使您的作业正在运行,您也可以调整群集大小!

EMR提供的Pig和Hive也包含补丁,可以更轻松地处理S3中的文件.

即使在这里的这个答案,你可能会发现,EMR已被赋予了上风.


jav*_*dba 6

我们在工作中使用这两种方法(EMR和EC2).

Amar提到的EMR的优点或多或少都是真实的:所以如果你想要简单,它可能是最好的选择.

但还有其他一些考虑因素:

  • EMR的版本远远落后于apache头.它大约是0.20.205而头部是2.X,基本上是3个版本(1.0,1.1,2.0 ..)

hadoop @ domU-12-31-39-07-B9-97:〜$ ll hadoop*.jar lrwxrwxrwx 1 hadoop hadoop 73 Feb 5 12:00 hadoop-examples-0.20.205.jar - >/home/hadoop /.版本/ 0.20.205/share/hadoop/hadoop-examples-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 69 Feb 5 12:00 hadoop-test-0.20.205.jar - > /home/hadoop/.versions/0.20. 205/share/hadoop/hadoop-test-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 69 Feb 5 12:00 hadoop-core-0.20.205.jar - > /home/hadoop/.versions/0.20.205/share/ hadoop/hadoop-core-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 70 Feb 5 12:00 hadoop-tools-0.20.205.jar - > /home/hadoop/.versions/0.20.205/share/hadoop/hadoop- tools-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 68 Feb 5 12:00 hadoop-ant-0.20.205.jar - > /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-ant-0.20. 205.jar

  • 由于在EMR上运行的旧版本中缺少contrib模块,因此我不得不重新编码/重构我的Map/reduce程序.

  • 您没有太多机会使用非Map/Reduce算法,就像使用M/R的更新版本一样.

  • 灵活地混合和匹配hadoop生态系统的版本.