Mat*_*ani 5 python apache-spark pyspark jupyter-notebook papermill
我正在寻找一种方法来轻松执行 Jupyter Notebooks 的参数化运行,并且我找到了 Papermill 项目 ( https://github.com/nteract/papermill/ )
这个工具似乎符合我的要求,但我找不到任何关于 PySpark 内核支持的参考。
造纸厂执行是否支持 PySpark 内核?
如果是,是否需要进行一些配置才能将其连接到 Jupyter 使用的 Spark 集群?
预先感谢您的支持,马蒂亚
Papermill 将使用 PySpark 内核,只要它们实现 Jupyter 的内核规范。
配置您的内核将取决于相关的内核。通常这些从spark.conf和/或spark.properties文件读取来配置Spark的集群和启动时间设置。