远程连接apache spark和apache hive.

Question

我可以从安装了apache spark的同一群集中的hive服务器加载数据.但是如何从远程配置单元服务器将数据加载到数据帧中.蜂巢jdbc连接器是唯一的选择吗？

任何建议我怎么能这样做？

Answer 1

您可以使用org.apache.spark.sql.hive.HiveContextHive表执行SQL查询.

您也可以将spark连接到真正存储数据的底层HDFS目录.这将更高效,因为SQL查询不需要解析或应用于文件的架构.