我是新手。我很想知道如何将 reducer 设置为不同的 hive 数据集。是基于处理的数据大小吗?还是所有人的默认减速器集?
比如5GB的数据需要多少reducer?将相同数量的减速器设置为较小的数据集吗?
提前致谢!!干杯!
在开源配置单元中(可能还有 EMR)
# reducers = (# bytes of input to mappers)
/ (hive.exec.reducers.bytes.per.reducer)
Run Code Online (Sandbox Code Playgroud)
默认 hive.exec.reducers.bytes.per.reducer 是 1G。
减速器的数量还取决于输入文件的大小您可以通过设置属性 hive.exec.reducers.bytes.per.reducer 来更改它:
通过更改 hive-site.xml
hive.exec.reducers.bytes.per.reducer 1000000
或使用集合
hive -e "设置 hive.exec.reducers.bytes.per.reducer=100000