Scala是Spark的必备工具吗?

che*_*gpu 5 scala apache-spark

我是Spark的新手。它在其文档中说它可以在Scala或Python中使用

一些博客说,火花取决于标量(例如,http://cn.soulmachine.me/blog/20130614/)。因此,我想知道:ScalaSpark的必需品吗?(由于依赖性,我是否必须先安装scala?)

dk1*_*k14 0

Java 是 Spark + 许多其他传递依赖项的必备条件(scala 编译器只是 JVM 的一个库)。PySpark 只是使用 Py4J(Python-Java 互操作)远程(通过套接字)连接到 JVM。Py4J 包含在 PySpark 中。

\n\n
\n

PySpark 需要 Python 2.6 或更高版本。PySpark 应用程序使用标准 CPython 解释器执行,以支持使用 C 扩展的 Python 模块。我们尚未使用 Python 3 或替代 Python 解释器(例如 PyPy 或 Jython)测试 PySpark。

\n\n

所有 PySpark\xe2\x80\x99s 库依赖项(包括 Py4J)都与 PySpark 捆绑\n 并自动导入。

\n\n

独立 PySpark 应用程序应使用 bin/pyspark\n 脚本运行,该脚本使用 conf/spark-env.sh 或 .cmd 中的设置自动配置 Java 和 Python 环境\n。该脚本自动将 bin/pyspark 包添加到 PYTHONPATH。

\n
\n\n

https://spark.apache.org/docs/0.9.1/python-programming-guide.html - 该指令展示了如何使用 Scala/Java 构建工具(SBT)构建和运行所有这些,它将下载所有依赖项(包括 scala)自动从远程存储库。你也可以使用 Maven。

\n\n

如果您不想在您的计算机上运行 Java - 您可以在任何其他计算机上启动它并配置 PySpark 以使用它(通过SparkConf().setMaster)。

\n\n

因此,您需要 Java 作为主节点以及 Spark 本身(以及所有 Java 依赖项,如 scala),并需要 Python 2.6 作为py-client

\n