在我的分布式系统课程中,我们开始讨论分布式计算的地图缩减模型.在map-reduce架构中拥有比映射器更多的reducer有什么好处?
注意:Google搜索此问题会就此问题提供相互矛盾的意见.
假设您的数据量很小,那么您不需要运行这么多的映射器来并行处理输入文件.
但是,如果<key,value>映射器生成的对很大且多样化,那么有更多的reducer是有意义的,因为您可以<key,value>并行处理更多数量的对.
让我们考虑一下你的映射器输出有10个键的情况,每个键有100个值,所以如果你有10个reducers,你可以并行处理所有的键.
现在假设您的映射器输出100个键,每个键有10个值.然后有100个减速器将并行处理所有键.(当然,一次运行100个减速机会涉及网络成本)
因此,根据映射器输出的数据类型,您可以决定减速器的最佳数量.
| 归档时间: |
|
| 查看次数: |
1508 次 |
| 最近记录: |