没有名为graphframes的模块Jupyter Notebook

Dan*_*nko 5 python apache-spark graphframes

我正在遵循安装指南,但是在使用时遇到以下问题graphframes

from pyspark import SparkContext
sc =SparkContext()
!pyspark --packages graphframes:graphframes:0.5.0-spark2.1-s_2.11
from graphframes import *
Run Code Online (Sandbox Code Playgroud)

-------------------------------------------------- ------------------------- ImportError Traceback(最近一次通话最近)在()----> 1从graphframes import *

ImportError:没有名为graphframes的模块

我不确定是否可以通过以下方式安装软件包。但我会感谢您的建议和帮助。

小智 5

好问题!

打开您的bashrc文件,然后键入export SPARK_OPTS="--packages graphframes:graphframes:0.5.0-spark2.1-s_2.11"。保存bashrc文件后,将其关闭并输入source .bashrc

最后,打开笔记本并输入:

from pyspark import SparkContext
sc = SparkContext()
sc.addPyFile('/home/username/spark-2.3.0-bin-hadoop2.7/jars/graphframes-0.5.0-spark2.1-s_2.11.jar')
Run Code Online (Sandbox Code Playgroud)

之后,您也许可以运行它。


Sid*_*hou 5

我在 docker 中使用 jupyter notebook,试图让图形框架正常工作。首先,我使用了/sf/answers/2503396661/ 中的方法,我有:

import findspark
findspark.init()
import pyspark
import os

SUBMIT_ARGS = "--packages graphframes:graphframes:0.7.0-spark2.4-s_2.11 pyspark-shell"
os.environ["PYSPARK_SUBMIT_ARGS"] = SUBMIT_ARGS

conf = pyspark.SparkConf()
sc = pyspark.SparkContext(conf=conf)
print(sc._conf.getAll())
Run Code Online (Sandbox Code Playgroud)

然后通过关注这个问题,我们终于能够import graphframeshttps : //github.com/graphframes/graphframes/issues/172

import sys
pyfiles = str(sc.getConf().get(u'spark.submit.pyFiles')).split(',')
sys.path.extend(pyfiles)
from graphframes import *
Run Code Online (Sandbox Code Playgroud)