abi*_*sis 1 github apache-spark databricks
我正在尝试从 GitHub 中的公共存储库导入一些数据,以便从我的 Databricks 笔记本中使用它。
到目前为止,我尝试按照此处所述将我的 Databricks 帐户与我的 GitHub 连接,但没有结果,因为 GitHub 支持似乎附带了一些非社区许可。当我尝试设置 GitHub 集成所需的 GitHub 令牌时,我收到以下消息:
之前在官方 Databricks 论坛上也有人问过同样的问题。
在 databricks 社区版上导入和存储 GitHub 存储库的最佳方法是什么?
我设法使用shell笔记本本身的命令解决了这个问题。我第一次通过 HTTPS 检索存储库git clone:
%sh git clone https://github.com/SomeDataRepo/TheData.git --depth 1 --branch=master /dbfs/FileStore/TheData/
Run Code Online (Sandbox Code Playgroud)
为什么不使用 SSH?SSH 需要设置 SSH 密钥,但在我的情况下不需要。
最后,每次我需要新版本的数据时,我都会git pull在执行程序之前执行:
%sh git -C /dbfs/FileStore/TheData/ pull
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
10298 次 |
| 最近记录: |