如何在Windows上设置Spark？

Question

如何在Windows上设置Spark？

Siv*_*iva 89 windows apache-spark

我正在尝试在Windows上设置Apache Spark.

经过一番搜索,我明白独立模式就是我想要的.我要下载哪些二进制文件才能在Windows中运行Apache spark？我在火花下载页面看到了带有hadoop和cdh的发行版.

我没有在网上引用这个.我们非常感谢您的分步指南.

Answer 1

Ani*_*non 136

在本地模式下安装Spark的步骤:

安装Java 7或更高版本.要测试java安装是否完成,请打开命令提示符,java然后按Enter键.如果收到消息'Java' is not recognized as an internal or external command. 您需要配置环境变量,JAVA_HOME并PATH指向jdk的路径.
下载并安装Scala.

设置SCALA_HOME为Control Panel\System and Security\System转到"高级系统设置"并%SCALA_HOME%\bin在环境变量中添加PATH变量.
从Python下载链接安装Python 2.6或更高版本.
下载SBT.安装它并设置SBT_HOME为值为的环境变量<<SBT PATH>>.
winutils.exe从HortonWorks repo或git repo下载.由于我们没有在Windows上安装本地Hadoop,因此我们必须将其下载winutils.exe并放在bin创建的Hadoop主目录下的目录中.HADOOP_HOME = <<Hadoop home directory>>在环境变量中设置.
我们将使用预先构建的Spark包,因此请为Hadoop Spark下载选择Spark预构建包.下载并解压缩.

在环境变量中设置SPARK_HOME并添加%SPARK_HOME%\binPATH变量.
运行命令: spark-shell
http://localhost:4040/在浏览器中打开以查看SparkContext Web UI.

伟大的指南,不需要任何本地编译. (5认同)
这非常有帮助,谢谢.此外,如果有人在运行spark-shell时出现"找不到spark jar目录"的错误,请确保SPARK_HOME路径中没有空格.对此长期挣扎. (4认同)
我得到"java.lang.IllegalArgumentException:实例化'org.apache.spark.sql.hive.HiveSessionState'时出错".我是否需要额外的步骤来安装配置单元？ (2认同)

Answer 2

jkg*_*yti 31

我发现Windows上最简单的解决方案是从源代码构建.

你几乎可以遵循这个指南:http://spark.apache.org/docs/latest/building-spark.html

下载并安装Maven,并设置MAVEN_OPTS为指南中指定的值.

但是,如果您只是在玩Spark,并且实际上并不需要它在Windows上运行,因为您自己的机器运行Windows的任何其他原因,我强烈建议您在Linux虚拟机上安装Spark.最简单的入门方法可能是下载Cloudera或Hortonworks制作的现成图像,并使用捆绑版本的Spark,或者从源代码或您可以从spark网站获得的已编译二进制文件中安装自己的图像.

Answer 3

ajn*_*rro 20

你可以从这里下载spark:

http://spark.apache.org/downloads.html

我推荐你这个版本:Hadoop 2(HDP2,CDH5)

从版本1.0.0开始,有.cmd脚本在Windows中运行spark.

使用7zip或类似方法打开包装.

首先,您可以执行/bin/spark-shell.cmd --master local [2]

要配置您的实例,您可以点击以下链接:http://spark.apache.org/docs/latest/

Answer 4

Nis*_*yal 17

您可以使用以下方法设置Spark:

从Source构建
使用预建版本

虽然有各种方法可以从Source构建Spark.
首先,我尝试使用SBT构建Spark源,但这需要hadoop.为了避免这些问题,我使用了预先构建的版本.

而不是Source,我为hadoop 2.x版本下载了Prebuilt版本并运行它.为此,您需要安装Scala作为先决条件.

我在这里整理了所有步骤:
如何在独立模式下在Windows7上运行Apache Spark

希望它能帮到你.. !!!

Answer 5

Far*_*rah 8

尝试使用spark-2.xx,构建Spark源代码对我来说不起作用.

所以,虽然我不打算使用Hadoop,但我下载了带有hadoop嵌入式的预制Spark: spark-2.0.0-bin-hadoop2.7.tar.gz
在解压缩的目录上指向SPARK_HOME,然后添加到PATH:;%SPARK_HOME%\bin;
下载可执行winutils从Hortonworks库,或者从亚马逊AWS平台winutils.
创建一个放置可执行文件winutils.exe的目录.例如,C:\ SparkDev\x64.添加%HADOOP_HOME%指向此目录的环境变量,然后添加%HADOOP_HOME%\bin到PATH.
使用命令行创建目录:
```
mkdir C:\tmp\hive
```
Run Code Online (Sandbox Code Playgroud)
使用您下载的可执行文件,将完整权限添加到您创建的文件目录中,但使用unixian形式:
```
%HADOOP_HOME%\bin\winutils.exe chmod 777 /tmp/hive
```
Run Code Online (Sandbox Code Playgroud)
键入以下命令行:
```
%SPARK_HOME%\bin\spark-shell
```
Run Code Online (Sandbox Code Playgroud)

应自动显示Scala命令行输入.

备注:您无需单独配置Scala.它也是内置的.

归档时间：	11 年，6 月前
查看次数：	194612 次
最近记录：	7 年，3 月前