Hadoop 集群。2 快,4 中,8 慢机器?

Rya*_*zel 4 hardware cluster hadoop

我们将购买一些新硬件来专门用于 Hadoop 集群,但我们一直在纠结应该购买什么。假设我们有 5000 美元的预算,我们应该以每台 2500 美元的价格购买两台超级漂亮的机器,每台 1200 美元左右购买四台,还是每台 600 美元左右购买八台?hadoop 会在更慢的机器或最少的更快的机器上更好地工作吗?或者,像大多数事情一样“视情况而定”?:-)

Sha*_*ess 5

如果可以,我会考虑使用云基础设施服务,例如Amazon Web Services (AWS) Elastic Compute Cloud (EC2),至少在您确定投资自己的硬件有意义之前。很容易被吸引到购买闪亮的装备(我每天都必须抵制)。通过在购买云之前尝试,您可以学到很多东西并回答这个问题:我公司的软件 X 或针对此数据集的 map/reduce 框架是否最匹配小型、中型或大型服务器集。我在 AWS 上运行了许多组合,在几天内放大、缩小、放大和缩小。我们对测试非常满意,因此决定继续使用 AWS 并放弃购买我们必须冷却、供电、维护等的大型机器集群。实例类型范围从:

标准实例

  • 小型实例(默认)1.7 GB 内存、1 个 EC2 计算单元(1 个虚拟核心和 1 个 EC2 计算单元)、160 GB 实例存储、32 位平台
  • 大型实例 7.5 GB 内存、4 个 EC2 计算单元(2 个虚拟内核,每个虚拟内核有 2 个 EC2 计算单元)、850 GB 实例存储、64 位平台
  • 超大实例 15 GB 内存、8 个 EC2 计算单元(4 个虚拟内核,每个虚拟内核 2 个 EC2 计算单元)、1690 GB 实例存储、64 位平台

高 CPU 实例

  • 高 CPU 中型实例 1.7 GB 内存、5 个 EC2 计算单元(2 个虚拟内核,每个虚拟内核具有 2.5 个 EC2 计算单元)、350 GB 实例存储、32 位平台

  • 高 CPU 超大实例 7 GB 内存、20 个 EC2 计算单元(8 个虚拟内核,每个虚拟内核 2.5 个 EC2 计算单元)、1690 GB 实例存储、64 位平台

EC2 计算单元 (ECU) – 一个 EC2 计算单元 (ECU) 提供相当于 1.0-1.2 GHz 2007 Opteron 或 2007 Xeon 处理器的 CPU 容量。

标准按需实例 Linux/UNIX 使用量 Windows 使用量
小型(默认) 每小时 0.10 美元 每小时 0.125 美元
大型 每小时 0.40 美元 每小时 0.50 美元
超大型 每小时 0.80 美元 每小时 1.00 美元

高 CPU 按需实例 Linux/UNIX 使用率 Windows 使用率
中等 每小时 0.20 美元 每小时 0.30 美元
超大型 每小时 0.80 美元 每小时 1.20 美元

很抱歉让答案听起来像供应商推销,但如果您的环境允许您走这条路,我认为如果您将来购买自己的硬件,您会很高兴并做出更好的购买决定。