自动更新Hive分区表的元数据的方法是什么?
如果将新分区数据添加到HDFS(没有alter table add partition命令执行).然后我们可以通过执行命令'msck repair'来同步元数据.
如果从HDFS中删除了大量分区数据(没有执行alter table drop partition commad执行),该怎么办?
同步Hive metatdata的方法是什么?
我是 pySpark 的新手。我正在尝试使用 PySpark-dataframes 获取配置单元表的最新分区(日期分区),如下所示。但我确信使用数据帧函数(而不是通过编写 SQL)有更好的方法来做到这一点。您能否就更好的方法分享意见。
该解决方案是通过扫描 Hive 表上的整个数据来获取它。
df_1 = sqlContext.table("dbname.tablename");
df_1_dates = df_1.select('partitioned_date_column').distinct().orderBy(df_1['partitioned_date_column'].desc())
lat_date_dict=df_1_dates.first().asDict()
lat_dt=lat_date_dict['partitioned_date_column']
Run Code Online (Sandbox Code Playgroud)