是否可以从 Scala(spark) 调用 python 函数

rob*_*ock 5 python scala apache-spark apache-spark-sql pyspark

我正在创建一个 Spark 作业,需要使用用 python 编写的函数将列添加到数据帧中。其余的处理是使用 Scala 完成的。

我找到了如何从 pyspark 调用 Java/Scala 函数的示例:

我发现以其他方式发送数据的唯一示例是使用pipe

我是否可以将整个数据帧发送到 python 函数,让该函数操作数据并添加其他列,然后将生成的数据帧发送回调用 Scala 函数?

如果这是不可能的,我当前的解决方案是运行 pyspark 进程并调用多个 Scala 函数来操作数据帧,这并不理想。

Sam*_*awi 0

我找到了这个帖子:

使用 Scala、Spark 和 Python 进行 Jupyter 机器学习:设置

它向您展示了如何设置同时使用 Spark 和 Python 的 Jupyter Notebook。如果您只是试验数据可能就足够了。