我正在尝试在使用 Kubernetes 部署的 zeppelin 笔记本上使用 pyspark 解释器。我已将 Spark 配置为使用 Spark 执行器(5 个核心,1G 存储)。但是,当我尝试运行 pandas/seaborn 并操作 pandas dataframe 时,出现以下错误:
Traceback (most recent call last):
File "/tmp/zeppelin_pyspark-6458200865742049511.py", line 367, in <module>
raise Exception(traceback.format_exc())
Exception: Traceback (most recent call last):
File "/tmp/zeppelin_pyspark-6458200865742049511.py", line 355, in <module>
exec(code, _zcUserQueryNameSpace)
File "<stdin>", line 2, in <module>
File "/opt/spark/python/pyspark/sql/dataframe.py", line 1703, in toPandas
return pd.DataFrame.from_records(self.collect(), columns=self.columns)
File "/opt/spark/python/pyspark/sql/dataframe.py", line 438, in collect
port = self._jdf.collectToPython()
File "/opt/spark/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py", line 1133, in __call__
answer, self.gateway_client, self.target_id, self.name)
File …Run Code Online (Sandbox Code Playgroud) 我是 apache Spark 的新手,我正在尝试在 Kubernetes 集群上使用 Spark-submit 运行 Spark 作业。我想知道一旦驱动程序和执行程序 Pod 产生,是否有正确的方法来停止 Spark 作业?删除 Pod 本身就足够了吗?
谢谢!