Hive 数据的减速器

Question

我是新手。我很想知道如何将 reducer 设置为不同的 hive 数据集。是基于处理的数据大小吗？还是所有人的默认减速器集？

比如5GB的数据需要多少reducer？将相同数量的减速器设置为较小的数据集吗？

提前致谢！！干杯!

Answer 1

在开源配置单元中（可能还有 EMR）

# reducers = (# bytes of input to mappers)
             / (hive.exec.reducers.bytes.per.reducer)

默认 hive.exec.reducers.bytes.per.reducer 是 1G。

减速器的数量还取决于输入文件的大小您可以通过设置属性 hive.exec.reducers.bytes.per.reducer 来更改它：

通过更改 hive-site.xml

hive.exec.reducers.bytes.per.reducer 1000000

或使用集合

hive -e "设置 hive.exec.reducers.bytes.per.reducer=100000