小编Lau*_*ren的帖子

Py4JJavaError:在 Jupyter 笔记本中使用 Pyspark 尝试使用“spark”运行示例。

我正在尝试在 Jupyter 笔记本中运行 PySpark 的示例(例如 Spark/examples/src/main/python/ml/fpgrowth_example.py)。但是,每当我尝试执行“spark.(some function)”时,我都会遇到异常。在本例中,它是spark.createDataFrame,但我也尝试过spark.read,它导致了相同的异常。我还尝试创建自己的 SparkSession,并在启动时使用 Jupyter Notebook 中已有的 SparkSession,但都无法正常工作。我能找到的主要异常是 AnalysisException:'java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;'

代码:

# $example on$
from pyspark.ml.fpm import FPGrowth 
# $example off$
from pyspark.sql import SparkSession

if __name__ == "__main__":
    spark = SparkSession\
    .builder\
    .appName("FPGrowthExample")\
    .getOrCreate()

# $example on$
df = spark.createDataFrame([
    (0, [1, 2, 5]),
    (1, [1, 2, 3, 5]),
    (2, [1, 2])
], ["id", "items"])
Run Code Online (Sandbox Code Playgroud)

例外:

AnalysisException                         Traceback (most recent call last)
<ipython-input-2-512249e97d93> in <module>()
      3         (1, [1, 2, 3, …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark jupyter-notebook

5
推荐指数
1
解决办法
7019
查看次数

标签 统计

apache-spark ×1

jupyter-notebook ×1

pyspark ×1

python ×1