我想要在正在运行的 Spark 作业中获取集群链接(或手动组成链接的集群 ID)。
这将用于打印警报消息中的链接,使工程师更容易访问日志。
是否可以在 Databricks 中运行的 Spark 作业中实现这一目标?
在 Databricks 中,如果我的作业请求 json 为:
{
"job_id": 1,
"notebook_params": {
"name": "john doe",
"age": "35"
}
}
Run Code Online (Sandbox Code Playgroud)
如何访问作业附加笔记本内的笔记本参数?
amazon-web-services databricks dbutils aws-databricks databricks-workflows
我想创建一个 databricks 作业,其中所有者设置为服务主体。主要原因是,如果员工离开公司,没有什么可以改变的,也不会因为 PAT 失败或类似情况而导致工作中断。问题是这样做时,作业总是无法访问设置为 azure devops 远程存储库的代码。问题和错误消息表明服务主体无法克隆 git 存储库。
我怎样才能做到这一点?
我的理解是,我可以使用 databricks 中的 git-credentials api 让服务主体使用我的 PAT 令牌之一来访问 git。不适合我。 https://docs.databricks.com/dev-tools/api/latest/gitcredentials.html#operation/create-git-credential
我知道一个解决方法是构建轮子并发布它,这样“检查代码”就不是通过工作完成的,而是通过 CI/CD 提前完成。但由于远程存储库非常简单易用,我们也希望将该功能与服务主体一起使用。
有人使用过它并让它发挥作用吗?也许还可以选择允许服务主体访问 azure devops 本身,但我被告知这还不可能。
azure-devops databricks azure-databricks databricks-repos databricks-workflows
例如,如果我有一个(多任务)Databricks 作业,其中有 3 个连续任务,而第二个任务失败 - 有没有办法从第二个任务开始,而不是再次运行整个管道?
我正在尝试获取正在运行的作业的名称。我想获取姓名并发送消息。示例:我将作业部署到 databricks 并运行它。我希望这个作业在松弛时发送带有作业名称的消息,这就是为什么我想获取当前作业的名称。
我有一个包含 Databricks 活动的 ADF 管道。
该活动每次都会创建一个新的作业集群,并且我已将所有必需的 Spark 配置添加到相应的链接服务中。
现在,随着 Databricks 提供 Spot 实例,我想在 Databricks 中使用 Spot 配置创建新集群。
我尝试从LinkedService文档中找到帮助,但没有成功!
如何使用 ADF 执行此操作?
干杯!!!
azure cost-management azure-data-factory azure-databricks databricks-workflows