Hadoop分区器

Question

Hadoop分区器

Nad*_*nem 6 hadoop mapreduce partitioner

我想问一下 Hadoop 分区器，它是在 Mappers 中实现的吗？。如何衡量使用默认哈希分区器的性能 - 是否有更好的分区器来减少数据倾斜？

谢谢

Answer 1

Ven*_*hik 4

分区器不在映射器内。

\n\n

以下是每个映射器中发生的过程 -

\n\n

每个映射任务将其输出写入循环缓冲存储器（而不是磁盘）。\n当缓冲区达到阈值时，后台线程开始将内容溢出到磁盘。[缓冲区大小由mapreduce.task.io.sort.mb属性控制，默认为100MB，溢出由mapreduce.io.sort.spill.percent属性控制，默认为0.08或80%]。在溢出到磁盘之前\n数据已根据它们将被发送到的减速器进行分区\n在每个分区内按键执行内存排序
对每种排序的结果运行组合器函数（减少写入和传输的数据，这需要专门完成）
压缩（可选）[mapred.compress.map.output=true; mapred.map.output.compression.codec=编解码器名称]
写入磁盘和输出文件\xe2\x80\x99s 分区可通过 HTTP 提供给减速器。

\n\n

下面是每个Reducer中发生的过程

\n\n

现在，每个Reducer从每个映射器收集所有文件，它进入排序/合并阶段（排序已经在映射器端完成），该阶段合并所有映射输出并保持排序顺序。
在reduce 阶段，为排序输出中的每个键调用reduce 函数。

\n\n

在此输入图像描述

\n\n

下面是代码，说明了键分区的实际过程。getpartition() 将返回特定键必须根据其哈希码发送到的分区号/化简器。每个键的哈希码必须是唯一的，并且在整个环境中，键的哈希码应该是唯一且相同的。为此，hadoop 为其密钥实现了自己的哈希码，而不是使用 java 默认哈希码。

\n\n

 Partition keys by their hashCode(). \n\n        public class HashPartitioner<K, V> extends Partitioner<K, V> {\n        public int getPartition(K key, V value,\n                                 int numReduceTasks) {\n           return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;\n       }\n\n       }\n

Run Code Online (Sandbox Code Playgroud)\n

归档时间：	10 年，10 月前
查看次数：	1614 次
最近记录：	10 年，2 月前