Mapreduce:比映射器更多的缩减器?

Mik*_*e G 4 hadoop mapreduce

在我的分布式系统课程中,我们开始讨论分布式计算的地图缩减模型.在map-reduce架构中拥有比映射器更多的reducer有什么好处?

注意:Google搜索此问题会就此问题提供相互矛盾的意见.

Cha*_*aos 8

假设您的数据量很小,那么您不需要运行这么多的映射器来并行处理输入文件.

但是,如果<key,value>映射器生成的对很大且多样化,那么有更多的reducer是有意义的,因为您可以<key,value>并行处理更多数量的对.

让我们考虑一下你的映射器输出有10个键的情况,每个键有100个值,所以如果你有10个reducers,你可以并行处理所有的键.

现在假设您的映射器输出100个键,每个键有10个值.然后有100个减速器将并行处理所有键.(当然,一次运行100个减速机会涉及网络成本)

因此,根据映射器输出的数据类型,您可以决定减速器的最佳数量.