Mau*_*yas 4 pyspark jupyter-notebook delta-lake
我正在尝试开始使用DeltaLakesusing Pyspark.
为了能够使用 deltalake,我在 Anaconda shell-prompt 上调用 pyspark 作为 \xe2\x80\x94
\n\npyspark \xe2\x80\x94 packages io.delta:delta-core_2.11:0.3.0\nRun Code Online (Sandbox Code Playgroud)\n\n这是来自 deltalake \xe2\x80\x94 https://docs.delta.io/latest/quick-start.html的参考
\n\nDelta Lake 的所有命令都可以在 Anaconda shell 提示符下正常工作。
\n\n在 jupyter 笔记本上,引用 deltalake 表会出现错误。这是我在 Jupyter 笔记本上运行的代码 -
\n\ndf_advisorMetrics.write.mode("overwrite").format("delta").save("/DeltaLake/METRICS_F_DELTA")\nspark.sql("create table METRICS_F_DELTA using delta location \'/DeltaLake/METRICS_F_DELTA\'")\nRun Code Online (Sandbox Code Playgroud)\n\n下面是我在笔记本开始时使用的连接到 pyspark 的代码 -
\n\nimport findspark\nfindspark.init()\nfindspark.find()\n\nimport pyspark\nfindspark.find()\nRun Code Online (Sandbox Code Playgroud)\n\n下面是我得到的错误:
\n\n\n\n\nPy4JJavaError:调用 o116.save 时发生错误。\n:java.lang.ClassNotFoundException:找不到数据源:delta。请在http://spark.apache.org/third-party-projects.html找到软件包
\n
有什么建议么?
\n小智 5
我创建了一个 Google Colab/Jupyter Notebook 示例,展示了如何运行 Delta Lake。
https://github.com/prasannakumar2012/spark_experiments/blob/master/examples/Delta_Lake.ipynb
它具有运行所需的所有步骤。这使用最新的 Spark 和 Delta 版本。请相应地更改版本。
| 归档时间: |
|
| 查看次数: |
6674 次 |
| 最近记录: |