小编vin*_*.19的帖子

当从HDFS手动删除分区数据时,如何在Hive中更新分区元数据

自动更新Hive分区表的元数据的方法是什么？

如果将新分区数据添加到HDFS(没有alter table add partition命令执行).然后我们可以通过执行命令'msck repair'来同步元数据.

如果从HDFS中删除了大量分区数据(没有执行alter table drop partition commad执行),该怎么办？

同步Hive metatdata的方法是什么？

hive partitioning

vin*_*.19

lucky-day

18
推荐指数

3
解决办法

3万
查看次数

pyspark - 从 Hive 分区列逻辑获取最新分区

我是 pySpark 的新手。我正在尝试使用 PySpark-dataframes 获取配置单元表的最新分区（日期分区），如下所示。但我确信使用数据帧函数（而不是通过编写 SQL）有更好的方法来做到这一点。您能否就更好的方法分享意见。

该解决方案是通过扫描 Hive 表上的整个数据来获取它。

df_1 = sqlContext.table("dbname.tablename");

df_1_dates = df_1.select('partitioned_date_column').distinct().orderBy(df_1['partitioned_date_column'].desc())

lat_date_dict=df_1_dates.first().asDict()

lat_dt=lat_date_dict['partitioned_date_column']

Run Code Online (Sandbox Code Playgroud)

hive apache-spark pyspark hive-partitions

vin*_*.19

2019 03-08

6
推荐指数

1
解决办法

4030
查看次数

标签统计

hive ×2

apache-spark ×1

hive-partitions ×1

partitioning ×1

pyspark ×1

当从HDFS手动删除分区数据时,如何在Hive中更新分区元数据

pyspark - 从 Hive 分区列逻辑获取最新分区

标签 统计

小编vin_.19的帖子

标签统计