我有使用DBFS 的经验,它是一个很好的存储,它保存您可以使用DBFS CLI从本地计算机上传的数据!该CLI设置有点复杂,但是当你管理,你可以很容易地围绕在这个环境中移动整个文件夹(记得使用-overwrite!)
使用 Scala,您可以使用如下代码轻松提取存储在此存储中的数据:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/test.csv")
.select(some_column_name)
Run Code Online (Sandbox Code Playgroud)
或读取整个文件夹以处理所有可用的 csv 文件:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/*.csv")
.select(some_column_name)
Run Code Online (Sandbox Code Playgroud)
我认为它易于使用和学习,希望这些信息对您有所帮助!