数据块 DBFS

Bil*_*y B 4 system file azure databricks

我需要对 Databricks DBFS 进行一些说明。

用简单的基本术语来说,它是什么,它的目的是什么,它允许我做什么?

databricks 上的文档对此进行了说明。

“DBFS 中的文件会保留在 Azure Blob 存储中,因此即使在终止群集后也不会丢失数据。”

任何见解都会有所帮助,但无法从体系结构和使用角度找到详细介绍它的文档

Eva*_*Eva 5

我有使用DBFS 的经验,它是一个很好的存储,它保存您可以使用DBFS CLI从本地计算机上传的数据!该CLI设置有点复杂,但是当你管理,你可以很容易地围绕在这个环境中移动整个文件夹(记得使用-overwrite!)

  1. 创建文件夹
  2. 上传文件
  3. 修改、删除文件和文件夹

使用 Scala,您可以使用如下代码轻松提取存储在此存储中的数据:

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/test.csv")
      .select(some_column_name)
Run Code Online (Sandbox Code Playgroud)

或读取整个文件夹以处理所有可用的 csv 文件:

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/*.csv")
      .select(some_column_name)
Run Code Online (Sandbox Code Playgroud)

我认为它易于使用和学习,希望这些信息对您有所帮助!