我正在尝试在 Jupyter 笔记本中运行 PySpark 的示例(例如 Spark/examples/src/main/python/ml/fpgrowth_example.py)。但是,每当我尝试执行“spark.(some function)”时,我都会遇到异常。在本例中,它是spark.createDataFrame,但我也尝试过spark.read,它导致了相同的异常。我还尝试创建自己的 SparkSession,并在启动时使用 Jupyter Notebook 中已有的 SparkSession,但都无法正常工作。我能找到的主要异常是 AnalysisException:'java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;'
代码:
# $example on$
from pyspark.ml.fpm import FPGrowth
# $example off$
from pyspark.sql import SparkSession
if __name__ == "__main__":
spark = SparkSession\
.builder\
.appName("FPGrowthExample")\
.getOrCreate()
# $example on$
df = spark.createDataFrame([
(0, [1, 2, 5]),
(1, [1, 2, 3, 5]),
(2, [1, 2])
], ["id", "items"])
Run Code Online (Sandbox Code Playgroud)
例外:
Run Code Online (Sandbox Code Playgroud)AnalysisException Traceback (most recent call last) <ipython-input-2-512249e97d93> in <module>() 3 (1, [1, 2, 3, …