zeppelin 无法导入 pandas、numpy、scipy

Irs*_*lam 5 pyspark apache-zeppelin

用 zeppelin 编写的代码,当我在那里启动 pyspark 时,它在 shell 中工作和导入正常,但在 zeppelin 中使用相同的代码则不然。

 %pyspark
import pandas

Traceback (most recent call last):
  File "/tmp/zeppelin_pyspark-4245945050627073162.py", line 239, in <module>
    eval(compiledCode)
  File "<string>", line 1, in <module>
ImportError: No module named pandas
Run Code Online (Sandbox Code Playgroud)

Roc*_*ang 5

这是因为机器上没有安装pandas。

如果没有安装pip,请先安装pip。

sudo curl --silent --show-error https://bootstrap.pypa.io/get-pip.py | python
Run Code Online (Sandbox Code Playgroud)

然后安装熊猫

sudo pip install pandas
Run Code Online (Sandbox Code Playgroud)

或者像这样使用[docker]。

docker run -d -p 8080:8080 -t knockdata/zeppelin-highcharts
Run Code Online (Sandbox Code Playgroud)

zeppelin-highcharts图像包含 pandas 和 Highcharts 功能。

  • 我无法登录托管 zeppelin 的计算机。如何在 zeppelin 笔记本中安装软件包?我的意思是,在 zeppelin 笔记本中使用 pip 。 (3认同)
  • 可能它没有使用相同的 python。检查“sys.path”是否相同。尝试在 Zeppelin 中使用 pyspark 中使用的相同配置“zeppelin.pyspark.python” (2认同)