如何在Windows上设置Spark?

Siv*_*iva 89 windows apache-spark

我正在尝试在Windows上设置Apache Spark.

经过一番搜索,我明白独立模式就是我想要的.我要下载哪些二进制文件才能在Windows中运行Apache spark?我在火花下载页面看到了带有hadoop和cdh的发行版.

我没有在网上引用这个.我们非常感谢您的分步指南.

Ani*_*non 136

在本地模式下安装Spark的步骤:

  1. 安装Java 7或更高版本.要测试java安装是否完成,请打开命令提示符,java然后按Enter键.如果收到消息'Java' is not recognized as an internal or external command. 您需要配置环境变量,JAVA_HOMEPATH指向jdk的路径.

  2. 下载并安装Scala.

    设置SCALA_HOMEControl Panel\System and Security\System转到"高级系统设置"并%SCALA_HOME%\bin在环境变量中添加PATH变量.

  3. Python下载链接安装Python 2.6或更高版本.

  4. 下载SBT.安装它并设置SBT_HOME为值为的环境变量<<SBT PATH>>.
  5. winutils.exeHortonWorks repogit repo下载.由于我们没有在Windows上安装本地Hadoop,因此我们必须将其下载winutils.exe并放在bin创建的Hadoop主目录下的目录中.HADOOP_HOME = <<Hadoop home directory>>在环境变量中设置.
  6. 我们将使用预先构建的Spark包,因此请为Hadoop Spark下载选择Spark预构建包.下载并解压缩.

    在环境变量中设置SPARK_HOME并添加%SPARK_HOME%\binPATH变量.

  7. 运行命令: spark-shell

  8. http://localhost:4040/在浏览器中打开以查看SparkContext Web UI.

  • 伟大的指南,不需要任何本地编译. (5认同)
  • 这非常有帮助,谢谢.此外,如果有人在运行spark-shell时出现"找不到spark jar目录"的错误,请确保SPARK_HOME路径中没有空格.对此长期挣扎. (4认同)
  • 我得到"java.lang.IllegalArgumentException:实例化'org.apache.spark.sql.hive.HiveSessionState'时出错".我是否需要额外的步骤来安装配置单元? (2认同)

jkg*_*yti 31

我发现Windows上最简单的解决方案是从源代码构建.

你几乎可以遵循这个指南:http://spark.apache.org/docs/latest/building-spark.html

下载并安装Maven,并设置MAVEN_OPTS为指南中指定的值.

但是,如果您只是在玩Spark,并且实际上并不需要它在Windows上运行,因为您自己的机器运行Windows的任何其他原因,我强烈建议您在Linux虚拟机上安装Spark.最简单的入门方法可能是下载Cloudera或Hortonworks制作的现成图像,并使用捆绑版本的Spark,或者从源代码或您可以从spark网站获得的已编译二进制文件中安装自己的图像.


ajn*_*rro 20

你可以从这里下载spark:

http://spark.apache.org/downloads.html

我推荐你这个版本:Hadoop 2(HDP2,CDH5)

从版本1.0.0开始,有.cmd脚本在Windows中运行spark.

使用7zip或类似方法打开包装.

首先,您可以执行/bin/spark-shell.cmd --master local [2]

要配置您的实例,您可以点击以下链接:http://spark.apache.org/docs/latest/


Nis*_*yal 17

您可以使用以下方法设置Spark:

  • 从Source构建
  • 使用预建版本

虽然有各种方法可以从Source构建Spark.
首先,我尝试使用SBT构建Spark源,但这需要hadoop.为了避免这些问题,我使用了预先构建的版本.

而不是Source,我为hadoop 2.x版本下载了Prebuilt版本并运行它.为此,您需要安装Scala作为先决条件.

我在这里整理了所有步骤:
如何在独立模式下在Windows7上运行Apache Spark

希望它能帮到你.. !!!


Far*_*rah 8

尝试使用spark-2.xx,构建Spark源代码对我来说不起作用.

  1. 所以,虽然我不打算使用Hadoop,但我下载了带有hadoop嵌入式的预制Spark: spark-2.0.0-bin-hadoop2.7.tar.gz

  2. 在解压缩的目录上指向SPARK_HOME,然后添加到PATH:;%SPARK_HOME%\bin;

  3. 下载可执行winutils从Hortonworks库,或者从亚马逊AWS平台winutils.

  4. 创建一个放置可执行文件winutils.exe的目录.例如,C:\ SparkDev\x64.添加%HADOOP_HOME%指向此目录的环境变量,然后添加%HADOOP_HOME%\bin到PATH.

  5. 使用命令行创建目录:

    mkdir C:\tmp\hive
    
    Run Code Online (Sandbox Code Playgroud)
  6. 使用您下载的可执行文件,将完整权限添加到您创建的文件目录中,但使用unixian形式:

    %HADOOP_HOME%\bin\winutils.exe chmod 777 /tmp/hive
    
    Run Code Online (Sandbox Code Playgroud)
  7. 键入以下命令行:

    %SPARK_HOME%\bin\spark-shell
    
    Run Code Online (Sandbox Code Playgroud)

应自动显示Scala命令行输入.

备注:您无需单独配置Scala.它也是内置的.