hadoop中每个映射器有一个或多个文件?

use*_*729 4 hadoop mapreduce hadoop-yarn hadoop2

映射器是同时处理多个文件还是映射器一次只能处理一个文件?我想知道默认行为

fra*_*ijo 5

  • 默认情况下,典型的Mapreduce作业遵循每个映射器的一个输入拆分.
  • 如果文件大小大于分割大小(即,它有多个输入分割),则每个文件是多个映射器.
  • 如果文件不像文件那样可拆分,Gzip 或者Distcp文件是最精细的粒度级别,则每个映射器只有一个文件.

  • 是的,这是默认行为.除非您使用CombineFileInputFormat.在分割之前,此文件格式将多个小文件合并为一个更大的文件.然后,不能保证一个映射器只能处理一个文件的数据.如果采用默认行为,您的理解是正确的. (3认同)