Bak*_*war 6 python apache-spark pyspark
我已经安装了anaconda,也已经下载了Spark 1.6.2。我正在使用此答案中的以下说明为Jupyter配置Spark,请在此处输入链接说明
我已经下载并解压缩spark目录为
~/spark
Run Code Online (Sandbox Code Playgroud)
现在,当我进入该目录并进入bin时,会看到以下内容
SFOM00618927A:spark $ cd bin
SFOM00618927A:bin $ ls
beeline pyspark run-example.cmd spark-class2.cmd spark-sql sparkR
beeline.cmd pyspark.cmd run-example2.cmd spark-shell spark-submit sparkR.cmd
load-spark-env.cmd pyspark2.cmd spark-class spark-shell.cmd spark-submit.cmd sparkR2.cmd
load-spark-env.sh run-example spark-class.cmd spark-shell2.cmd spark-submit2.cmd
Run Code Online (Sandbox Code Playgroud)
我还按照上述答案将环境变量添加到了.bash_profile和.profile中。
现在在spark / bin目录中,我要检查的第一件事是pyspark命令是否首先在Shell上运行。
所以我在做cd spark / bin之后就这样做
SFOM00618927A:bin $ pyspark
-bash: pyspark: command not found
Run Code Online (Sandbox Code Playgroud)
按照所有步骤后的答案,我可以做
pyspark
Run Code Online (Sandbox Code Playgroud)
在任何目录的终端中,它应该启动一个带有Spark引擎的Jupyter笔记本。但是,即使外壳中的pyspark无法正常工作,也请忘记使其在juypter笔记本上运行
请告知这里出了什么问题。
编辑:
我做了
open .profile
Run Code Online (Sandbox Code Playgroud)
在主目录中,这就是存储在路径中的内容。
export PATH=/Users/854319/anaconda/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:/Library/TeX/texbin:/Users/854319/spark/bin
export PYSPARK_DRIVER_PYTHON=ipython
export PYSPARK_DRIVER_PYTHON_OPTS='notebook' pyspark
Run Code Online (Sandbox Code Playgroud)
1-您需要设置JAVA_HOME
并激发外壳程序的路径才能找到它们。将它们设置为您后,.profile
您可能想要
source ~/.profile
Run Code Online (Sandbox Code Playgroud)
激活当前会话中的设置。从你的评论中我可以看出你已经遇到了这个JAVA_HOME
问题。
请注意,如果您有.bash_profile
或.bash_login
,.profile
将无法按照此处所述工作
2-当你进去的时候spark/bin
你需要跑步
./pyspark
Run Code Online (Sandbox Code Playgroud)
告诉 shell 目标位于当前文件夹中。
归档时间: |
|
查看次数: |
12575 次 |
最近记录: |