小编sou*_*rvo的帖子

HDP3.1.4 - 使用 Spark-submit 和 pyspark shell 时带有 Hive Warehouse Connector 的 Spark2 错误:KeeperErrorCode = ConnectionLoss

环境:

  • HDP 3.1.4 -配置并测试 Hive 服务器 2 - 测试并工作
  • Hive 服务器 2 LLAP -根据文档进行测试并运行 Spark,配置为使用 Hive Warehouse Connector (HWC)
  • Apache Zeppelin -配置为使用 HWC 的 Spark2 解释器

尝试执行以下脚本:

from pyspark.sql import SparkSession
from pyspark_llap import HiveWarehouseSession

# Create spark session
spark = SparkSession.builder.appName("LLAP Test - CLI").enableHiveSupport().getOrCreate()

# Create HWC session
hive = HiveWarehouseSession.session(spark).userPassword('hive','hive').build()

# Execute a query to read from Spark using HWC
hive.executeQuery("select * from wifi_table where partit='2019-12-02'").show(20)

Run Code Online (Sandbox Code Playgroud)

问题: 当使用spark-submit提交应用程序或使用pyspark shell与上述脚本(或任何使用HiveWarehouseSession执行查询的脚本)时,spark作业卡住,抛出异常:java.lang.RuntimeException:java .io.IOException:shadecurator.org.apache.curator.CuratorConnectionLossException:KeeperErrorCode = ConnectionLoss

执行的命令如下:

$ …
Run Code Online (Sandbox Code Playgroud)

hadoop hive apache-spark apache-zookeeper hdp

6
推荐指数
0
解决办法
1959
查看次数

标签 统计

apache-spark ×1

apache-zookeeper ×1

hadoop ×1

hdp ×1

hive ×1