将 GitHub 存储库导入 Databricks 社区版

abi*_*sis 1 github apache-spark databricks

我正在尝试从 GitHub 中的公共存储库导入一些数据,以便从我的 Databricks 笔记本中使用它。

到目前为止,我尝试按照此处所述将我的 Databricks 帐户与我的 GitHub 连接,但没有结果,因为 GitHub 支持似乎附带了一些非社区许可。当我尝试设置 GitHub 集成所需的 GitHub 令牌时,我收到以下消息:

在此输入图像描述

之前在官方 Databricks 论坛上也有人问过同样的问题。

在 databricks 社区版上导入和存储 GitHub 存储库的最佳方法是什么?

abi*_*sis 5

我设法使用shell笔记本本身的命令解决了这个问题。我第一次通过 HTTPS 检索存储库git clone

%sh git clone https://github.com/SomeDataRepo/TheData.git --depth 1 --branch=master /dbfs/FileStore/TheData/
Run Code Online (Sandbox Code Playgroud)

为什么不使用 SSH?SSH 需要设置 SSH 密钥,但在我的情况下不需要。

最后,每次我需要新版本的数据时,我都会git pull在执行程序之前执行:

%sh git -C /dbfs/FileStore/TheData/ pull
Run Code Online (Sandbox Code Playgroud)