use*_*379 3 hive jdbc apache-spark apache-spark-sql
我可以从安装了apache spark的同一群集中的hive服务器加载数据.但是如何从远程配置单元服务器将数据加载到数据帧中.蜂巢jdbc连接器是唯一的选择吗?
任何建议我怎么能这样做?
您可以使用org.apache.spark.sql.hive.HiveContextHive表执行SQL查询.
您也可以将spark连接到真正存储数据的底层HDFS目录.这将更高效,因为SQL查询不需要解析或应用于文件的架构.
如果群集是外部群集,则需要进行设置hive.metastore.uris