rob*_*ock 5 python scala apache-spark apache-spark-sql pyspark
我正在创建一个 Spark 作业,需要使用用 python 编写的函数将列添加到数据帧中。其余的处理是使用 Scala 完成的。
我找到了如何从 pyspark 调用 Java/Scala 函数的示例:
我发现以其他方式发送数据的唯一示例是使用pipe
我是否可以将整个数据帧发送到 python 函数,让该函数操作数据并添加其他列,然后将生成的数据帧发送回调用 Scala 函数?
如果这是不可能的,我当前的解决方案是运行 pyspark 进程并调用多个 Scala 函数来操作数据帧,这并不理想。
我找到了这个帖子:
使用 Scala、Spark 和 Python 进行 Jupyter 机器学习:设置
它向您展示了如何设置同时使用 Spark 和 Python 的 Jupyter Notebook。如果您只是试验数据可能就足够了。
| 归档时间: |
|
| 查看次数: |
7875 次 |
| 最近记录: |