小编Mau*_*yas的帖子

如何使用 pyspark 在 jupyter 笔记本中引用 deltalake 表

我正在尝试开始使用DeltaLakesusing Pyspark.

\n\n

为了能够使用 deltalake,我在 Anaconda shell-prompt 上调用 pyspark 作为 \xe2\x80\x94

\n\n
pyspark \xe2\x80\x94 packages io.delta:delta-core_2.11:0.3.0\n
Run Code Online (Sandbox Code Playgroud)\n\n

这是来自 deltalake \xe2\x80\x94 https://docs.delta.io/latest/quick-start.html的参考

\n\n

Delta Lake 的所有命令都可以在 Anaconda shell 提示符下正常工作。

\n\n

在 jupyter 笔记本上,引用 deltalake 表会出现错误。这是我在 Jupyter 笔记本上运行的代码 -

\n\n
df_advisorMetrics.write.mode("overwrite").format("delta").save("/DeltaLake/METRICS_F_DELTA")\nspark.sql("create table METRICS_F_DELTA using delta location \'/DeltaLake/METRICS_F_DELTA\'")\n
Run Code Online (Sandbox Code Playgroud)\n\n

下面是我在笔记本开始时使用的连接到 pyspark 的代码 -

\n\n
import findspark\nfindspark.init()\nfindspark.find()\n\nimport pyspark\nfindspark.find()\n
Run Code Online (Sandbox Code Playgroud)\n\n

下面是我得到的错误:

\n\n
\n

Py4JJavaError:调用 o116.save 时发生错误。\n:java.lang.ClassNotFoundException:找不到数据源:delta。请在http://spark.apache.org/third-party-projects.html找到软件包

\n
\n\n

有什么建议么?

\n

pyspark jupyter-notebook delta-lake

4
推荐指数
1
解决办法
6674
查看次数

标签 统计

delta-lake ×1

jupyter-notebook ×1

pyspark ×1