我知道当hive.exec.parallel在hive中设置为true时
set hive.exec.parallel=true;
Run Code Online (Sandbox Code Playgroud)
然后查询中的独立任务可以并行运行.
感谢Qubole:

将此参数设置为false有什么好处吗?我将在这里进行迭代:显然,只要有可能,您希望并行运行并获得更多吞吐量.为什么有人将此参数设置为false - 是否有任何缺点?
我在 Amazon AWS 上使用 Elastic Mapreduce 基础设施。一个 jowflow 自动终止。根据 Amazon 控制台的最后状态更改原因是:“作业流中的所有从站都已终止”。
创建作业流命令:
elastic-mapreduce --create --name MyCluster --alive --instance-group master --instance-type m1.xlarge --instance-count 1 --bid-price 2.0 --instance-group core --instance-type m1.xlarge --instance-count 10 --bid-price 2.0 --hive-interactive --enable-debugging
Run Code Online (Sandbox Code Playgroud)
关于工作流程的详细信息:

日志的最后几行...
Total MapReduce jobs = 2
Launching Job 1 out of 2
Number of reduce tasks not specified. Estimated from input data size: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum …Run Code Online (Sandbox Code Playgroud)