HDINSIGHT配置单元,MSCK REPAIR TABLE table_name抛出错误

ana*_*and 5 hive bigdata hadoop-partitioning

我有一个名为employee with partition(年,月,日)的外部分区表,每天都会有一个新文件来到特定日期的位置调用,今天的日期将在2016/10/13.

TABLE SCHEMA:
create External table employee(EMPID Int,FirstName String,.....)
partitioned by (year string,month string,day string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' LOCATION '/.../emp';
Run Code Online (Sandbox Code Playgroud)

所以我们每天都需要运行工作正常的命令

ALTER TABLE employee ADD IF NOT EXISTS PARTITION (year=2016,month=10,day=14) LOCATION '/.../emp/2016/10/14';
Run Code Online (Sandbox Code Playgroud)

但是一旦我们尝试使用下面的命令,因为我们不想手动执行上面的alter table命令,它会抛出Error

hive> MSCK REPAIR TABLE employee;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask
Run Code Online (Sandbox Code Playgroud)

注意:

hive> MSCK TABLE employee; //this show me that a partition has not added in the table
OK
Partitions not in metastore: employee:2016/10/14
Time taken: 1.066 seconds, Fetched: 1 row(s)
Run Code Online (Sandbox Code Playgroud)

请帮助我,因为我坚持这一点.我们对这种情况有什么解决方法吗?

ana*_*and 27

我为我的问题找到了一个解决方案,如果表静态分区名称是'year = 2016/month = 10/day = 13'那么我们可以使用下面的命令,它正在工作......

set hive.msck.path.validation=ignore;
MSCK REPAIR TABLE table_name;
Run Code Online (Sandbox Code Playgroud)

  • 如果您有大量分区,您可能需要设置 hive.msck.repair.batch.size。当有大量未跟踪的分区时,可以提供批量运行 MSCK REPAIR TABLE 以避免 OOME(内存不足错误)的规定。y 为属性 hive.msck.repair.batch.size 提供配置的批处理大小,它可以在内部批处理中运行。T 该属性的默认值为 0,表示将一次执行所有分区。 (2认同)