远程连接apache spark和apache hive.

use*_*379 3 hive jdbc apache-spark apache-spark-sql

我可以从安装了apache spark的同一群集中的hive服务器加载数据.但是如何从远程配置单元服务器将数据加载到数据帧中.蜂巢jdbc连接器是唯一的选择吗?

任何建议我怎么能这样做?

axl*_*Lab 7

您可以使用org.apache.spark.sql.hive.HiveContextHive表执行SQL查询.

您也可以将spark连接到真正存储数据的底层HDFS目录.这将更高效,因为SQL查询不需要解析或应用于文件的架构.

如果群集是外部群集,则需要进行设置hive.metastore.uris