Hive 数据的减速器

Hol*_*mes 3 hive mapreduce

我是新手。我很想知道如何将 reducer 设置为不同的 hive 数据集。是基于处理的数据大小吗?还是所有人的默认减速器集?

比如5GB的数据需要多少reducer?将相同数量的减速器设置为较小的数据集吗?

提前致谢!!干杯!

Kis*_*ore 5

在开源配置单元中(可能还有 EMR)

# reducers = (# bytes of input to mappers)
             / (hive.exec.reducers.bytes.per.reducer)
Run Code Online (Sandbox Code Playgroud)

默认 hive.exec.reducers.bytes.per.reducer 是 1G。

减速器的数量还取决于输入文件的大小您可以通过设置属性 hive.exec.reducers.bytes.per.reducer 来更改它:

通过更改 hive-site.xml

hive.exec.reducers.bytes.per.reducer 1000000

或使用集合

hive -e "设置 hive.exec.reducers.bytes.per.reducer=100000