Sha*_*awn 4 hadoop mapreduce hdfs
HDFS的块大小是64 MB吗?是否有可用于更改它的配置参数?
对于映射器读取gzip文件,gzip文件的数量是否必须等于映射器的数量?
Chr*_*ite 10
这取决于您:
NLineInputFormat,WholeFileInputFormat)在块大小以外的边界上工作.通常,虽然任何扩展FileInputFormat都将使用块边界作为指南FileInputFormat配置属性mapred.min.split.size和mapred.max.split.size一般默认为1和Long.MAX_VALUE,但如果这是在您的系统配置覆盖,或在你的工作,那么这将改变每个映射处理的数据amunt,以及映射任务的数量产生了.CombineFileInputFormat,CompositeInputFormat)因此,如果您的文件块大小为64m,但要想处理多于或少于每个映射任务的文件,那么您应该只能设置以下作业配置属性:
mapred.min.split.size - 大于默认值,如果你想使用更少的映射器,代价是(可能)丢失数据局部性(单个映射任务处理的所有数据现在可能在2个或更多数据节点上)mapred.max.split.size - 小于默认值,如果你想使用更多的映射器(比如你有一个CPU密集型映射器)来处理每个文件如果您使用的是MR2/YARN,则不推荐使用上述属性并替换为:
mapreduce.input.fileinputformat.split.minsizemapreduce.input.fileinputformat.split.maxsize| 归档时间: |
|
| 查看次数: |
6119 次 |
| 最近记录: |