相关疑难解决方法(0)

将Spark数据帧保存为Hive中的动态分区表

我有一个示例应用程序正在从csv文件读取数据帧.可以使用该方法将数据帧以镶木地板格式存储到Hive表中 df.saveAsTable(tablename,mode).

上面的代码工作正常,但我每天都有如此多的数据,我想根据creationdate(表中的列)动态分区hive表.

有没有办法动态分区数据帧并将其存储到配置单元仓库.想要避免使用硬编码插入语句hivesqlcontext.sql(insert into table partittioin by(date)....).

问题可以视为以下内容的扩展:如何将DataFrame直接保存到Hive?

任何帮助深表感谢.

hadoop hive apache-spark apache-spark-sql spark-dataframe

30
推荐指数
4
解决办法
7万
查看次数

如何使用其架构从Spark数据框创建hive表?

我想使用Spark数据帧的架构创建一个hive表.我怎样才能做到这一点?

对于固定列,我可以使用:

val CreateTable_query = "Create Table my table(a string, b string, c double)"
sparksession.sql(CreateTable_query) 
Run Code Online (Sandbox Code Playgroud)

但是我的数据框中有很多列,所以有没有办法自动生成这样的查询?

hive scala apache-spark

9
推荐指数
4
解决办法
5万
查看次数