数据块 DBFS

Question

数据块 DBFS

Bil*_*y B 4 system file azure databricks

我需要对 Databricks DBFS 进行一些说明。

用简单的基本术语来说，它是什么，它的目的是什么，它允许我做什么？

databricks 上的文档对此进行了说明。

“DBFS 中的文件会保留在 Azure Blob 存储中，因此即使在终止群集后也不会丢失数据。”

任何见解都会有所帮助，但无法从体系结构和使用角度找到详细介绍它的文档

Answer 1

Eva*_*Eva 5

我有使用DBFS 的经验，它是一个很好的存储，它保存您可以使用DBFS CLI从本地计算机上传的数据！该CLI设置有点复杂，但是当你管理，你可以很容易地围绕在这个环境中移动整个文件夹（记得使用-overwrite！）

创建文件夹
上传文件
修改、删除文件和文件夹

使用 Scala，您可以使用如下代码轻松提取存储在此存储中的数据：

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/test.csv")
      .select(some_column_name)

Run Code Online (Sandbox Code Playgroud)

或读取整个文件夹以处理所有可用的 csv 文件：

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/*.csv")
      .select(some_column_name)

Run Code Online (Sandbox Code Playgroud)

我认为它易于使用和学习，希望这些信息对您有所帮助！

归档时间：	7 年前
查看次数：	561 次
最近记录：	6 年前