跨多个数据中心分发数据节点

Mat*_*t E 7 hadoop distributed-computing

有没有人试图跨多个数据中心测试数据节点的性能?特别是在小管道网络上.我似乎无法找到太多关于它的信息,我发现的信息要么是旧的(大约2010年),要么是专有的(似乎DataStax有一些东西).我知道Hadoop支持机架识别,但就像我说我没有看到任何用于调整多个数据中心系统的文档.

Jam*_*Con 5

我尝试过12 x DataNode群集,它以2:1的比例排列,分成两个大约120英里的数据中心.2 x 1GbE管道上数据中心之间的延迟约为4毫秒.

在站点A中配置了2个机架,在站点B中配置了1个机架.每个"机架"中有4台机器.我们基本上将Site B测试为"DR"站点.复制因子设置为3.

长话短说,它有效,但表现真的非常糟糕.您必须在源上使用压缩,映射和减少输出以缩小写入I/O,如果站点之间的链接用于其他任何内容,则在传输数据时会出现超时.TCP窗口将有效地限制我们的传输到大约4MBps,而不是1GbE线上的潜在100MBps +.

避免头痛,只需使用distcp作业来复制数据!