Ajo*_*joy 7 data-lake delta-lake
是否可以在本地实施 Delta Lake?如果是,需要安装哪些软件/工具?
我正在尝试在本地实现 Delta Lake 来分析一些日志文件和数据库表。我现在的机器装的是ubuntu,apache Spark。不确定还需要什么其他工具。
是否还有其他工具建议来实施本地数据湖概念?
是的,您可以在本地使用 Delta Lake。这只是使用正确版本的 Delta 库的问题(Spark 2.4 为 0.6.1,Spark 3.0 为 0.8.0)。或者按如下方式运行spark-shell/pyspark(对于Spark 3.0):
pyspark --packages io.delta:delta-core_2.12:0.8.0
Run Code Online (Sandbox Code Playgroud)
然后你可以以 Delta 格式写入数据,如下所示:
pyspark --packages io.delta:delta-core_2.12:0.8.0
Run Code Online (Sandbox Code Playgroud)
它也可以处理本地文件,但如果您需要构建真正的数据湖,那么您需要使用 HDFS 之类的东西,它也受到开箱即用的支持。
| 归档时间: |
|
| 查看次数: |
2967 次 |
| 最近记录: |