在Ubuntu 14.04上安装Apache Spark

JPe*_*erk 12 virtual-machine apache-spark ubuntu-14.04

起初我有一个我通过ubuntu访问的VM,这个VM也是Ubuntu 14.04.我需要尽快安装Apache Spark,但我找不到任何可以帮助我的内容或者给我提供最佳解释的参考资料.我尝试过在我的本地机器Ubuntu 14.04上安装它但是它失败了,但问题是我不想在集群上安装它.有什么帮助吗???

kar*_*ala 24

您可以通过三个简单步骤安装并开始使用spark :

你现在准备玩火花了.

  • @gsamaras选择最新的spark版本..如果你不想明确地构建spark,你可以选择用hadoop下载预构建的spark版本(不需要安装hadoop) (2认同)

pra*_*esh 6

接下来的过程主要是:

确保安装了Java Development Kit的版本7或8

在下一步安装Scala.

然后在~/.bashrc文件的末尾添加以下内容

export SCALA_HOME=<path to Scala home>
export PATH=$SCALA_HOME/bin:$PATH
Run Code Online (Sandbox Code Playgroud)

重启bashrc.

$ . .bashrc
Run Code Online (Sandbox Code Playgroud)

在下一步安装git.Spark构建取决于git.

sudo apt-get install git
Run Code Online (Sandbox Code Playgroud)

最后从这里下载火花分布

$ wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0.tgz
$ tar xvf spark-1.4.0.tgz 
Run Code Online (Sandbox Code Playgroud)

建造

SBT(简单构建工具)用于构建与其捆绑在一起的Spark.编译代码

$ cd spark-1.4.0
$ build/sbt assembly
Run Code Online (Sandbox Code Playgroud)

建设需要一些时间.

请参阅此博客文章,您可以在此处找到在Ubuntu-14.04上安装Apache Spark的更多详细步骤


小智 5

这篇文章解释了在 Ubuntu/Linux 机器上设置 Apache Spark-2.0 的详细步骤。为了在 Ubuntu 机器上运行 Spark,应该安装 Java 和 Scala。Spark 可以在有或没有 Hadoop 的情况下安装,在这篇文章中,我们将只处理安装 Spark 2.0 Standalone。在另一篇文章中解释了在 Hadoop 上安装 Spark-2.0。我们还将介绍如何安装 Jupyter notebooks 以使用 Python 和 pyspark 模块运行 Spark 应用程序。所以,让我们从检查和安装java和scala开始。

$ scala -version
$ java –version
Run Code Online (Sandbox Code Playgroud)

如果已经安装了 scala 和 java,这些命令应该会向您打印版本,否则您可以使用以下命令安装这些。

$ sudo apt-get update
$ sudo apt-get install oracle-java8-installer
$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
$ sudo mkdir /usr/local/src/scala
$ sudo tar xvf scala-2.10.4.tgz -C /usr/local/scala/
Run Code Online (Sandbox Code Playgroud)

您可以再次使用 –version 命令检查 java 和 scala 是否安装正确,这将显示 – Scala 代码运行器版本 2.10.4 -- 版权所有 2002-2013,LAMP/EPFL,对于 java,它应该显示 java 版本“1.8.0_101” Java(TM) SE Runtime Environment (build 1.8.0_101-b13) Java HotSpot(TM) 64-Bit Server VM(build 25.101-b14,混合模式)并通过在最后添加这些行来更新 .bashrc 文件。

export SCALA_HOME=/usr/local/scala/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH
Run Code Online (Sandbox Code Playgroud)

并使用此命令重新启动 bashrc

$ . .bashrc
Run Code Online (Sandbox Code Playgroud)

首先安装 Spark使用以下选项从https://spark.apache.org/downloads.html下载 Spark Spark Realease:2.0.0 包类型:使用 Hadoop 2.7 预构建和直接下载。

现在,转到 $HOME/Downloads 并使用以下命令提取 spark tar 文件并移动到给定位置。

$ `tar xvf spark-1.3.1-bin-hadoop2.6.tgz`
$ `cd $HOME/Downloads/` 
$ mv spark-2.0.0-bin-hadoop2.7 /usr/local/spark
Run Code Online (Sandbox Code Playgroud)

将以下行添加到 ~/.bashrc 文件。这意味着将 spark 软件文件所在的位置添加到 PATH 变量中。

export SPARK_HOME=/usr/local/spark
export PATH =$SPARK_HOME/bin:$PATH
Run Code Online (Sandbox Code Playgroud)

再次使用这些命令重新启动环境 .bashrc source ~/.bashrc

. .bashrc
Run Code Online (Sandbox Code Playgroud)

现在您可以使用这些命令启动 spark-shell

$spark-shell    for starting scala API
$ pyspark       for starting Python API
Run Code Online (Sandbox Code Playgroud)