小编Jos*_*eva的帖子

如何修复 Py4JJavaError:调用collectToPython时发生错误

我正在尝试在使用 Kubernetes 部署的 zeppelin 笔记本上使用 pyspark 解释器。我已将 Spark 配置为使用 Spark 执行器(5 个核心,1G 存储)。但是,当我尝试运行 pandas/seaborn 并操作 pandas dataframe 时,出现以下错误:

Traceback (most recent call last):
  File "/tmp/zeppelin_pyspark-6458200865742049511.py", line 367, in <module>
    raise Exception(traceback.format_exc())
Exception: Traceback (most recent call last):
  File "/tmp/zeppelin_pyspark-6458200865742049511.py", line 355, in <module>
    exec(code, _zcUserQueryNameSpace)
  File "<stdin>", line 2, in <module>
  File "/opt/spark/python/pyspark/sql/dataframe.py", line 1703, in toPandas
    return pd.DataFrame.from_records(self.collect(), columns=self.columns)
  File "/opt/spark/python/pyspark/sql/dataframe.py", line 438, in collect
    port = self._jdf.collectToPython()
  File "/opt/spark/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py", line 1133, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File …
Run Code Online (Sandbox Code Playgroud)

py4j kubernetes pyspark apache-zeppelin

5
推荐指数
1
解决办法
2万
查看次数

停止 Kubernetes 集群上运行的 Spark 作业的最优雅/正确的方法是什么?

我是 apache Spark 的新手,我正在尝试在 Kubernetes 集群上使用 Spark-submit 运行 Spark 作业。我想知道一旦驱动程序和执行程序 Pod 产生,是否有正确的方法来停止 Spark 作业?删除 Pod 本身就足够了吗?

谢谢!

apache-spark kubernetes

5
推荐指数
1
解决办法
3448
查看次数