小编vin*_*.19的帖子

当从HDFS手动删除分区数据时,如何在Hive中更新分区元数据

自动更新Hive分区表的元数据的方法是什么?

如果将新分区数据添加到HDFS(没有alter table add partition命令执行).然后我们可以通过执行命令'msck repair'来同步元数据.

如果从HDFS中删除了大量分区数据(没有执行alter table drop partition commad执行),该怎么办?

同步Hive metatdata的方法是什么?

hive partitioning

18
推荐指数
3
解决办法
3万
查看次数

pyspark - 从 Hive 分区列逻辑获取最新分区

我是 pySpark 的新手。我正在尝试使用 PySpark-dataframes 获取配置单元表的最新分区(日期分区),如下所示。但我确信使用数据帧函数(而不是通过编写 SQL)有更好的方法来做到这一点。您能否就更好的方法分享意见。

该解决方案是通过扫描 Hive 表上的整个数据来获取它。

df_1 = sqlContext.table("dbname.tablename");

df_1_dates = df_1.select('partitioned_date_column').distinct().orderBy(df_1['partitioned_date_column'].desc())

lat_date_dict=df_1_dates.first().asDict()

lat_dt=lat_date_dict['partitioned_date_column']
Run Code Online (Sandbox Code Playgroud)

hive apache-spark pyspark hive-partitions

6
推荐指数
1
解决办法
4030
查看次数