我正在尝试开始使用DeltaLakesusing Pyspark.
为了能够使用 deltalake,我在 Anaconda shell-prompt 上调用 pyspark 作为 \xe2\x80\x94
\n\npyspark \xe2\x80\x94 packages io.delta:delta-core_2.11:0.3.0\nRun Code Online (Sandbox Code Playgroud)\n\n这是来自 deltalake \xe2\x80\x94 https://docs.delta.io/latest/quick-start.html的参考
\n\nDelta Lake 的所有命令都可以在 Anaconda shell 提示符下正常工作。
\n\n在 jupyter 笔记本上,引用 deltalake 表会出现错误。这是我在 Jupyter 笔记本上运行的代码 -
\n\ndf_advisorMetrics.write.mode("overwrite").format("delta").save("/DeltaLake/METRICS_F_DELTA")\nspark.sql("create table METRICS_F_DELTA using delta location \'/DeltaLake/METRICS_F_DELTA\'")\nRun Code Online (Sandbox Code Playgroud)\n\n下面是我在笔记本开始时使用的连接到 pyspark 的代码 -
\n\nimport findspark\nfindspark.init()\nfindspark.find()\n\nimport pyspark\nfindspark.find()\nRun Code Online (Sandbox Code Playgroud)\n\n下面是我得到的错误:
\n\n\n\n\nPy4JJavaError:调用 o116.save 时发生错误。\n:java.lang.ClassNotFoundException:找不到数据源:delta。请在http://spark.apache.org/third-party-projects.html找到软件包
\n
有什么建议么?
\n