蜂巢表现

kab*_*las 6 hadoop hive

我在蜂巢工作,我是新手.我正面临一些关于hive查询性能的问题.

  1. 分配给我的工作的映射器数量非常低,即使有数百个映射器可用.我试过设置 mapred.map.tasks=200.但它只需要20到30个映射器.据我所知,映射器的数量取决于inputsplit.有没有其他选项来增加映射器?如果没有那么为什么mapred.map.tasks引入参数()?

  2. 是否有任何资源我可以理解将hive查询与map-reduce作业相关联,即查询的不同部分在哪里执行?

Joe*_*e K 2

有关设置映射任务的更多信息,请查看此链接: http: //wiki.apache.org/hadoop/HowManyMapsAndReduces。基本上,mapred.map.tasks 只是一个提示;它通常并不真正控制任何东西。

要查看 Hive 查询的执行方式,只需在查询前面加上explain. 例如:explain select foo from bar;。如果您需要更多信息,还有explain extended.