小编shi*_*hiv的帖子

Spark Dataframe 在覆盖 Hive 表的分区数据时出现问题

下面是我的 Hive 表定义：

CREATE EXTERNAL TABLE IF NOT EXISTS default.test2(
id integer,
count integer
)
PARTITIONED BY (
fac STRING,
fiscaldate_str DATE )
STORED AS PARQUET
LOCATION 's3://<bucket name>/backup/test2';

Run Code Online (Sandbox Code Playgroud)

我有如下配置单元表中的数据，（我刚刚插入了示例数据）

select * from default.test2

+---+-----+----+--------------+
| id|count| fac|fiscaldate_str|
+---+-----+----+--------------+
|  2|    3| NRM|    2019-01-01|
|  1|    2| NRM|    2019-01-01|
|  2|    3| NRM|    2019-01-02|
|  1|    2| NRM|    2019-01-02|
|  2|    3| NRM|    2019-01-03|
|  1|    2| NRM|    2019-01-03|
|  2|    3|STST|    2019-01-01|
|  1|    2|STST|    2019-01-01|
|  2|    3|STST| …

Run Code Online (Sandbox Code Playgroud)

hive partition apache-spark apache-spark-sql pyspark

shi*_*hiv

2019 08-23

0
推荐指数

1
解决办法

3348
查看次数