蜂巢表现

Question

我在蜂巢工作,我是新手.我正面临一些关于hive查询性能的问题.

分配给我的工作的映射器数量非常低,即使有数百个映射器可用.我试过设置 mapred.map.tasks=200.但它只需要20到30个映射器.据我所知,映射器的数量取决于inputsplit.有没有其他选项来增加映射器？如果没有那么为什么mapred.map.tasks引入参数()？
是否有任何资源我可以理解将hive查询与map-reduce作业相关联,即查询的不同部分在哪里执行？

Answer 1

有关设置映射任务的更多信息，请查看此链接： http: //wiki.apache.org/hadoop/HowManyMapsAndReduces。基本上，mapred.map.tasks 只是一个提示；它通常并不真正控制任何东西。

要查看 Hive 查询的执行方式，只需在查询前面加上explain. 例如：explain select foo from bar;。如果您需要更多信息，还有explain extended.