DBFS AZURE Databricks - 文件存储和 DBFS 的差异

mis*_*sha 7 azure databricks azure-databricks

我正在使用带有 ADLS存储层的 Azure Databricks。我怀疑DBFS 和 Filestore之间有什么区别?知道吗,Filestore 中可以存储的文件的最大大小是多少?我们可以将输出文件存储在 Filestore 中然后覆盖它们吗?

谢谢。

Ale*_*Ott 5

DBFS 是云存储实现的抽象,允许您使用简单路径而不是完整 URL 来处理云存储中的文件。来自文档:

\n
\n

Databricks 文件系统 (DBFS) 是安装到 Databricks 工作区并在 Databricks 集群上可用的分布式文件系统。DBFS 是可扩展对象存储之上的抽象,具有以下优点:

\n
    \n
  • 允许您挂载存储对象,以便无需凭据即可无缝访问数据。
  • \n
  • 允许您使用目录和文件语义而不是存储 URL 与对象存储进行交互。
  • \n
  • 将文件保留到对象存储,因此在终止集群后您不会丢失数据。
  • \n
\n
\n

在底层,它在 Azure 上使用相同的 ADLS,因此应应用相同的限制(当前限制为每个文件 200Tb)。

\n

PS 请注意,有所谓的DBFS 根- 从创建工作区期间自动创建的存储帐户创建,并且 DBFS 挂载到“外部”存储帐户。通常建议仅将 DBFS Root 用于临时文件,因为如果删除工作区,该存储帐户也会被删除。

\n