eco*_*omy 7 hive hiveql hadoop2
我正在运行 Hive 1.0,尝试使用内置analyze命令计算列统计信息。HQL 脚本如下所示:
set hive.cbo.enable=true;
set hive.compute.query.using.stats=true;
set hive.stats.fetch.column.stats=true;
use db;
analyze table tbl compute statistics for columns;
Run Code Online (Sandbox Code Playgroud)
这将按预期启动仅地图 MR 任务。对于 map 和 reduce,作业运行到 100%,然后报告:
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.ColumnStatsTask
Run Code Online (Sandbox Code Playgroud)
但该作业已注册为SUCCESS.
谷歌搜索让我找到了这张 JIRA 票,但决议表明问题已在 Hive 0.14 中解决。我在查询中遗漏了一些简单的东西吗?
编辑:五年半后,我换了两次工作和行业,选择了 Spark,然后在我所有的工作流程中完全放弃了 Hadoop,世界围绕着不需要新查询语言的高效云数据湖而调整。Hive 对我来说是遥远的记忆,但我希望其他寻求答案的人找到了足够的解决方法。我想我从来没有这样做过。