仅地图作业的用例/示例

div*_*gon 2 hadoop mapreduce

对于仅涉及 Map 任务而不涉及减速器的作业,是否存在现实生活中的良好用例/示例。只触发mappers而不需要设置reducers的作业。

mar*_*nia 5

我已经完成了许多仅地图工作......这里有一些例子。

  1. 您每天都会构建一个分类模型,并且需要使用该分类器对所有数据进行分类。不需要reduce,您只需从分布式缓存(或从数据库等远程资源)加载分类器,然后在映射器的map() 函数内进行分类并将结果写入某处。
  2. 对 HBase 表等内容执行数据清理。读取映射器中的每一行,如果它与某些条件语句匹配,则将其删除。这里不需要减少。

基本上,如果不需要组合或聚合数据,只需要对每条数据执行重复的串行过程,通常不需要减速器。我还想说,如果您不需要减速器,那么您可能会问自己,使用 Apache Storm 或其他开销较小的处理模型是否会更好。