如何设置 checkpiont dir PySpark Data Science Experience

ElB*_*cas 1 pyspark data-science-experience

你能帮我说明如何为 IBM 的数据科学体验中的 PySpark 会话设置检查点目录吗?。

需要是因为我必须connectedComponents()从 GraphFrames运行它会引发以下错误

Py4JJavaError: An error occurred while calling o221.run.
: java.io.IOException: Checkpoint directory is not set. Please set it first using sc.setCheckpointDir(). 
Run Code Online (Sandbox Code Playgroud)

ElB*_*cas 5

主要问题是获取笔记本作为工作目录的目录,以使用sc.setCheckpointDir(). 这可以很容易地完成

!pwd
Run Code Online (Sandbox Code Playgroud)

然后,应该在该路线上创建检查点目录

!mkdir <pwd_output>/checkpoints
Run Code Online (Sandbox Code Playgroud)

最后设置检查点

!pwd
Run Code Online (Sandbox Code Playgroud)