将 Python 脚本提交到 Databricks JOB

Yuv*_*uva 4 gitlab pyspark gitlab-api databricks azure-databricks

是否可以向 databricks 作业提交/配置 Spark python 脚本 (.py) 文件?

我在 Pycharm IDE 中进行开发,然后将代码推送/提交到我们的 gitlab 存储库。我的要求是当 python 脚本移动到 GitLab 主分支时,我需要在 databricks 集群中创建新作业。

如果可以使用 gitlab.yml 脚本在 python 脚本上创建 databricks 作业,我想得到一些建议?

在databricks Job UI中,我可以看到可以使用的spark jar或笔记本,但想知道我们是否可以提供一个python文件。

谢谢,

尤瓦

Rap*_*l K 5

此功能当前在 Databricks UI 中不可用,但可以通过 REST API 访问。您将需要使用SparkPythonTask数据结构。

您可以在官方文档中找到此示例:

curl -n -H "Content-Type: application/json" -X POST -d @- https://<databricks-instance>/api/2.0/jobs/create <<JSON
{
  "name": "SparkPi Python job",
  "new_cluster": {
    "spark_version": "5.2.x-scala2.11",
    "node_type_id": "i3.xlarge",
    "num_workers": 2
  },
  "spark_python_task": {
    "python_file": "dbfs:/docs/pi.py",
    "parameters": [
      "10"
    ]
  }
}JSON
Run Code Online (Sandbox Code Playgroud)

如果您需要 REST API 入门帮助,请参阅此处