JnB*_*ymn 6 numpy apache-spark pyspark
我是火花提交一个导入numpy的python文件,但是我收到了一个no module named numpy错误.
$ spark-submit --py-files projects/other_requirements.egg projects/jobs/my_numpy_als.py
Traceback (most recent call last):
File "/usr/local/www/my_numpy_als.py", line 13, in <module>
from pyspark.mllib.recommendation import ALS
File "/usr/lib/spark/python/pyspark/mllib/__init__.py", line 24, in <module>
import numpy
ImportError: No module named numpy
Run Code Online (Sandbox Code Playgroud)
我以为我会把一个鸡蛋拉成numpy-python文件,但是我很难搞清楚如何制作那个鸡蛋.但后来我发现pyspark本身使用了numpy.拉入我自己的numpy版本是愚蠢的.
在这里做适当的事情有什么想法吗?
Spark 似乎正在使用尚未numpy安装的 Python 版本。这可能是因为您在虚拟环境中工作。
尝试这个:
# The following is for specifying a Python version for PySpark. Here we
# use the currently calling Python version.
# This is handy for when we are using a virtualenv, for example, because
# otherwise Spark would choose the default system Python version.
os.environ['PYSPARK_PYTHON'] = sys.executable
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
6338 次 |
| 最近记录: |