如何使用 pyspark 启动独立集群?

the*_*ter 3 python apache-spark pyspark

我在 ubuntu 下使用 pyspark 和 python 2.7 我使用安装它

pip install pyspark --user 
Run Code Online (Sandbox Code Playgroud)

并尝试按照说明设置火花集群

我找不到脚本 start-master.sh 我认为这与我安装了 pyspark 而不是常规 spark 的事实有关

我在这里发现我可以通过 pyspark 将工作节点连接到主节点,但是如何使用 pyspark 启动主节点?

cri*_*007 5

https://pypi.python.org/pypi/pyspark

Spark 的 Python 包装并不打算取代所有......用例。这个 Python 打包版本的 Spark 适合与现有集群(无论是 Spark 独立、YARN 还是 Mesos)交互,但不包含设置您自己的独立 Spark 集群所需的工具。您可以从 Apache Spark 下载页面下载完整版的 Spark。


the*_*ter 1

好吧,我在操作中做了一些混淆。

您需要在应作为主机运行的机器上启动 Spark。你可以在这里下载

解压后,您将得到spark/sbin 文件夹,其中有start-master.sh 脚本。你需要以 -h 参数开始它。

请注意,您需要创建一个像此处所述的 Spark-env 文件并定义 Spark 本地变量和主变量,这在主计算机上很重要。

之后,在工作节点上使用start-slave.sh脚本启动工作节点。

一切顺利,您可以在 python 中使用 Spark 上下文来使用它!