我们需要启动spark来运行pyspark吗？

Question

这可能是一个新手问题。这是我的场景。

我在我的机器上安装了火花。我还没有启动它（使用 sbin/start-all.sh 或 sbin 文件夹中的任何其他脚本）。然后我打开 pyspark （使用 bin/pyspark），它启动没有任何错误。我尝试运行示例程序：

>>> var=sc.textFile('/home/rushikesh/sam.txt')
>>> var.count()

它工作正常，没有任何错误。

问题1：执行pyspark/spark-shell程序不需要spark running吗？

问题2：或者只有Spark-submit需要spark来启动？

如果我遗漏了什么，请澄清。

Answer 1

默认情况下，Spark 以local[*]模式运行，该模式提供嵌入在单个 JVM 中的非分布式测试和开发环境。

这同样适用于spark-shell、pyspark和spark-submit其他选项。

sbin脚本用于启动 Spark 自己的独立集群管理器，通常在分布式环境中。如果您使用这些，您还必须正确配置 Spark master URL。

然而，这只是许多支持的（和第三方）集群管理器中可以与 Spark 一起使用的之一。