Nac*_*ras 7 filesystems curl databricks
我正在使用 saveAsTextFile() 将 Spark 作业的结果存储在文件夹 dbfs:/FileStore/my_result 中。
我可以使用 Web 浏览器访问不同的“part-xxxxx”文件,但我希望将所有文件下载到本地计算机的过程自动化。
我尝试使用 cURL,但找不到 RestAPI 命令来下载 dbfs:/FileStore 文件。
问题:如何将 dbfs:/FileStore 文件下载到我的本地计算机?
我正在使用 Databricks 社区版在大学教授大数据分析的本科模块。我的本地机器上安装了 Windows 7。我已检查 cURL 和 _netrc 文件是否已正确安装和配置,因为我设法成功运行了 RestAPI 提供的一些命令。
非常感谢您的帮助!最好的问候,纳乔
Jos*_*sen 13
有几个选项可以将 FileStore 文件下载到本地计算机。
更简单的选择:
dbfs cp命令。例如:dbfs cp dbfs:/FileStore/test.txt ./test.txt。如果要下载整个文件夹的文件,可以使用dbfs cp -r.https://<YOUR_DATABRICKS_INSTANCE_NAME>.cloud.databricks.com/files/. 如果您使用的是 Databricks 社区版,那么您可能需要使用稍微不同的路径。FileStore 文档中更详细地描述了此下载方法。高级选项:
readAPI 调用访问文件内容。要下载大文件,您可能需要发出多次read调用来访问完整文件的块。从 Databricks DBFS 社区版下载小文件的最快方法:
当您访问 Databricks 社区版时,链接如下所示:https://community.cloud.databricks.com/?o=<unique ID>
将您的文件上传到文件夹FileStore > tables。然后下载链接将如下所示:
https://community.cloud.databricks.com/files/tables/sample_file.csv?o=<your unique ID>
上次测试日期:2021 年 8 月 17 日