Rus*_*ade 5 apache-spark pyspark
这可能是一个新手问题。这是我的场景。
我在我的机器上安装了火花。我还没有启动它(使用 sbin/start-all.sh 或 sbin 文件夹中的任何其他脚本)。然后我打开 pyspark (使用 bin/pyspark),它启动没有任何错误。我尝试运行示例程序:
>>> var=sc.textFile('/home/rushikesh/sam.txt')
>>> var.count()
Run Code Online (Sandbox Code Playgroud)
它工作正常,没有任何错误。
问题1:执行pyspark/spark-shell程序不需要spark running吗?
问题2:或者只有Spark-submit需要spark来启动?
如果我遗漏了什么,请澄清。
小智 -1
默认情况下,Spark 以local[*]模式运行,该模式提供嵌入在单个 JVM 中的非分布式测试和开发环境。
这同样适用于spark-shell、pyspark和spark-submit其他选项。
sbin脚本用于启动 Spark 自己的独立集群管理器,通常在分布式环境中。如果您使用这些,您还必须正确配置 Spark master URL。
然而,这只是许多支持的(和第三方)集群管理器中可以与 Spark 一起使用的之一。
| 归档时间: |
|
| 查看次数: |
2302 次 |
| 最近记录: |