如何设置SPARK_HOME变量?

ros*_*ray 5 apache-spark h2o sparkling-water

遵循http://h2o-release.s3.amazonaws.com/sparkling-water/rel-2.2/0/index.html链接中的气泡水的步骤。

在终端中运行:

〜/ InstallFile / SparklingWater / sparkling-water-2.2.0 $ bin / sparkling-shell --conf“ spark.executor.memory = 1g”

请为您的Spark安装设置SPARK_HOME变量

Jad*_*ins 7

您应该安装并设置SPARK_HOME变量,在unix终端中运行以下代码来设置变量:

export SPARK_HOME="/path/to/spark"
Run Code Online (Sandbox Code Playgroud)

要维持此配置,您应该将此附加到.bashrc的末尾。

参见安装说明https://www.tutorialspoint.com/apache_spark/apache_spark_installation.htm


Mig*_*ejo 7

将 Jupyter Notebook 与 Anaconda 一起使用时,为执行此操作而调用的函数findspark.py执行以下操作:

def find():
    spark_home = os.environ.get('SPARK_HOME', None)

    if not spark_home:
        for path in [
            '/usr/local/opt/apache-spark/libexec', # OS X Homebrew
            '/usr/lib/spark/' # AWS Amazon EMR
            # Any other common places to look?
        ]:
            if os.path.exists(path):
                spark_home = path
                break

    if not spark_home:
        raise ValueError("Couldn't find Spark, make sure SPARK_HOME env is set"
                         " or Spark is in an expected location (e.g. from homebrew installation).")

    return spark_home
Run Code Online (Sandbox Code Playgroud)

所以我们将遵循下一个程序。

1.指定SPARK_HOME和JAVA_HOME

正如我们在上面的函数中看到的,对于 Windows,我们需要指定位置。下一个函数是从这些答案稍微修改的版本。它被修改是因为还需要指定一个 JAVA_HOME,这是您安装它的目录。此外,我已经创建了一个 spark 目录,我在其中移动了我正在使用的 Spark 的下载版本,对于此过程,您可以查看这些链接

import os 
import sys

def configure_spark(spark_home=None, pyspark_python=None):
    spark_home = spark_home or "/path/to/default/spark/home"
    os.environ['SPARK_HOME'] = spark_home
    os.environ['JAVA_HOME'] = 'C:\Program Files\Java\jre1.8.0_231'

    # Add the PySpark directories to the Python path:
    sys.path.insert(1, os.path.join(spark_home, 'python'))
    sys.path.insert(1, os.path.join(spark_home, 'python', 'pyspark'))
    sys.path.insert(1, os.path.join(spark_home, 'python', 'build'))

    # If PySpark isn't specified, use currently running Python binary:
    pyspark_python = pyspark_python or sys.executable
    os.environ['PYSPARK_PYTHON'] = pyspark_python

configure_spark('C:\spark\spark-2.4.4-bin-hadoop2.6')
Run Code Online (Sandbox Code Playgroud)

2.配置SparkContext

在本地工作时,您应该以下一种方式配置 SparkContext :(这些链接很有用)

import findspark
from pyspark.conf import SparkConf
from pyspark.context import SparkContext

# Find Spark Locally
location = findspark.find()
findspark.init(location, edit_rc=True)

# Start a SparkContext 
configure = SparkConf().set('spark.driver.host','127.0.0.1')
sc = pyspark.SparkContext(master = 'local', appName='desiredName', conf=configure)
Run Code Online (Sandbox Code Playgroud)

这个程序对我来说很好,谢谢!