Databricks:将 dbfs:/FileStore 文件下载到我的本地机器?

Nac*_*ras 7 filesystems curl databricks

我正在使用 saveAsTextFile() 将 Spark 作业的结果存储在文件夹 dbfs:/FileStore/my_result 中。

我可以使用 Web 浏览器访问不同的“part-xxxxx”文件,但我希望将所有文件下载到本地计算机的过程自动化。

我尝试使用 cURL,但找不到 RestAPI 命令来下载 dbfs:/FileStore 文件。

问题:如何将 dbfs:/FileStore 文件下载到我的本地计算机?

我正在使用 Databricks 社区版在大学教授大数据分析的本科模块。我的本地机器上安装了 Windows 7。我已检查 cURL 和 _netrc 文件是否已正确安装和配置,因为我设法成功运行了 RestAPI 提供的一些命令。

非常感谢您的帮助!最好的问候,纳乔

Jos*_*sen 13

有几个选项可以将 FileStore 文件下载到本地计算机。

更简单的选择:

  • 安装Databricks CLI,使用您的 Databricks 凭据对其进行配置,然后使用 CLI 的dbfs cp命令。例如:dbfs cp dbfs:/FileStore/test.txt ./test.txt。如果要下载整个文件夹的文件,可以使用dbfs cp -r.
  • 从登录到 Databricks 的浏览器,导航到https://<YOUR_DATABRICKS_INSTANCE_NAME>.cloud.databricks.com/files/. 如果您使用的是 Databricks 社区版,那么您可能需要使用稍微不同的路径。FileStore 文档中更详细地描述了此下载方法。

高级选项:

  • 使用DBFS REST API。您可以使用readAPI 调用访问文件内容。要下载大文件,您可能需要发出多次read调用来访问完整文件的块。


Ken*_*war 8

从 Databricks DBFS 社区版下载小文件的最快方法:

当您访问 Databricks 社区版时,链接如下所示:https://community.cloud.databricks.com/?o=<unique ID>

将您的文件上传到文件夹FileStore > tables。然后下载链接将如下所示: https://community.cloud.databricks.com/files/tables/sample_file.csv?o=<your unique ID>

上次测试日期:2021 年 8 月 17 日


Mod*_*oud 8

对我来说最简单的方法是使用显示方法。 在此输入图像描述

参考:https://www.learntospark.com/2021/04/download-data-from-dbfs-to-local.html