如何使用 pyspark 启动独立集群？

Question

如何使用 pyspark 启动独立集群？

我在 ubuntu 下使用 pyspark 和 python 2.7 我使用安装它

pip install pyspark --user

Run Code Online (Sandbox Code Playgroud)

并尝试按照说明设置火花集群

我找不到脚本 start-master.sh 我认为这与我安装了 pyspark 而不是常规 spark 的事实有关

我在这里发现我可以通过 pyspark 将工作节点连接到主节点，但是如何使用 pyspark 启动主节点？

Answer 1

cri*_*007 5

https://pypi.python.org/pypi/pyspark

Spark 的 Python 包装并不打算取代所有......用例。这个 Python 打包版本的 Spark 适合与现有集群（无论是 Spark 独立、YARN 还是 Mesos）交互，但不包含设置您自己的独立 Spark 集群所需的工具。您可以从 Apache Spark 下载页面下载完整版的 Spark。

Answer 2

the*_*ter 1

好吧，我在操作中做了一些混淆。

您需要在应作为主机运行的机器上启动 Spark。你可以在这里下载

解压后，您将得到spark/sbin 文件夹，其中有start-master.sh 脚本。你需要以 -h 参数开始它。

请注意，您需要创建一个像此处所述的 Spark-env 文件并定义 Spark 本地变量和主变量，这在主计算机上很重要。

之后，在工作节点上使用start-slave.sh脚本启动工作节点。

一切顺利，您可以在 python 中使用 Spark 上下文来使用它！

归档时间：	8 年，5 月前
查看次数：	1785 次
最近记录：	6 年，5 月前