Spark - 如何在本地运行独立群集

Question

是否有可能在一台机器上本地运行Spark独立集群(这与仅在本地开发作业(即local[*]))基本不同？

到目前为止,我正在运行2个不同的虚拟机来构建集群,如果我可以在同一台机器上运行独立集群,例如运行三个不同的JVM,该怎么办？

像多个环回地址这样的东西可以做到吗？

Answer 1

是的,你可以做到这一点,启动一个主节点和一个工作节点,你很高兴

发射大师

./sbin/start-master.sh

发射工人

./bin/spark-class org.apache.spark.deploy.worker.Worker  spark://localhost:7077 -c 1 -m 512M

运行SparkPi示例

./bin/spark-submit  --class org.apache.spark.examples.SparkPi   --master spark://localhost:7077  lib/spark-examples-1.2.1-hadoop2.4.0.jar

Answer 2

./sbin/start-master.sh如果您在计算机上找不到该文件，也可以使用以下命令启动 master

./bin/spark-class org.apache.spark.deploy.master.Master

Answer 3

关于最新版本（2.1.0）的一个小更新，默认是将主服务器绑定到主机名，因此在本地启动工作进程时，使用以下输出hostname：

./bin/spark-class org.apache.spark.deploy.worker.Worker  spark://`hostname`:7077 -c 1 -m 512M

要运行示例，只需运行以下命令：

bin/run-example SparkPi