我们需要启动spark来运行pyspark吗?

Rus*_*ade 5 apache-spark pyspark

这可能是一个新手问题。这是我的场景。

我在我的机器上安装了火花。我还没有启动它(使用 sbin/start-all.sh 或 sbin 文件夹中的任何其他脚本)。然后我打开 pyspark (使用 bin/pyspark),它启动没有任何错误。我尝试运行示例程序:

>>> var=sc.textFile('/home/rushikesh/sam.txt')
>>> var.count() 
Run Code Online (Sandbox Code Playgroud)

它工作正常,没有任何错误。

问题1:执行pyspark/spark-shell程序不需要spark running吗?

问题2:或者只有Spark-submit需要spark来启动?

如果我遗漏了什么,请澄清。

小智 -1

默认情况下,Spark 以local[*]模式运行,该模式提供嵌入在单个 JVM 中的非分布式测试和开发环境。

这同样适用于spark-shellpysparkspark-submit其他选项。

sbin脚本用于启动 Spark 自己的独立集群管理器,通常在分布式环境中。如果您使用这些,您还必须正确配置 Spark master URL。

然而,这只是许多支持的(和第三方)集群管理器中可以与 Spark 一起使用的之一。