Dan*_*nko 5 python apache-spark graphframes
我正在遵循此安装指南,但是在使用时遇到以下问题graphframes
from pyspark import SparkContext
sc =SparkContext()
!pyspark --packages graphframes:graphframes:0.5.0-spark2.1-s_2.11
from graphframes import *
Run Code Online (Sandbox Code Playgroud)
-------------------------------------------------- ------------------------- ImportError Traceback(最近一次通话最近)在()----> 1从graphframes import *
ImportError:没有名为graphframes的模块
我不确定是否可以通过以下方式安装软件包。但我会感谢您的建议和帮助。
小智 5
好问题!
打开您的bashrc文件,然后键入export SPARK_OPTS="--packages graphframes:graphframes:0.5.0-spark2.1-s_2.11"。保存bashrc文件后,将其关闭并输入source .bashrc。
最后,打开笔记本并输入:
from pyspark import SparkContext
sc = SparkContext()
sc.addPyFile('/home/username/spark-2.3.0-bin-hadoop2.7/jars/graphframes-0.5.0-spark2.1-s_2.11.jar')
Run Code Online (Sandbox Code Playgroud)
之后,您也许可以运行它。
我在 docker 中使用 jupyter notebook,试图让图形框架正常工作。首先,我使用了/sf/answers/2503396661/ 中的方法,我有:
import findspark
findspark.init()
import pyspark
import os
SUBMIT_ARGS = "--packages graphframes:graphframes:0.7.0-spark2.4-s_2.11 pyspark-shell"
os.environ["PYSPARK_SUBMIT_ARGS"] = SUBMIT_ARGS
conf = pyspark.SparkConf()
sc = pyspark.SparkContext(conf=conf)
print(sc._conf.getAll())
Run Code Online (Sandbox Code Playgroud)
然后通过关注这个问题,我们终于能够import graphframes:https : //github.com/graphframes/graphframes/issues/172
import sys
pyfiles = str(sc.getConf().get(u'spark.submit.pyFiles')).split(',')
sys.path.extend(pyfiles)
from graphframes import *
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1823 次 |
| 最近记录: |