标签: azure-databricks

使用 Terraform 配置 Azure AD Databricks SCIM 应用程序

我正在尝试创建和配置Azure Databricks SCIM 配置连接器,以便我可以从 AAD 在我的 Databricks 工作区中配置用户。

按照这些说明,我可以让它手动工作。也就是说,可以在 Azure 门户中创建和设置应用程序,并且我选择的用户可以在 Databricks 中同步。(这个过程并不完全简单。在做任何事情之前需要进行大量的摆弄,我不记得了,需要进行配置设置。)

当我尝试将其转换为 Terraform 时,我并没有走得太远:

  • 我可以使用 Terraform 创建应用程序,使用创建 Databricks 工作区资源的相同服务主体:

    data "azuread_application_template" "scim" {
      display_name = "Azure Databricks SCIM Provisioning Connector"
    }
    
    resource "azuread_application" "scim" {
      display_name = "${var.name}-scim"
      template_id  = data.azuread_application_template.scim.template_id
    
      feature_tags {
        enterprise = true
        gallery    = true
      }
    }
    
    Run Code Online (Sandbox Code Playgroud)

    同样,我可以非常轻松地为我的服务主体创建 Databricks 访问令牌:

    resource "databricks_token" "scim" {
      comment = "SCIM Integration"
    }
    
    Run Code Online (Sandbox Code Playgroud)
  • 现在我被困住了:

    1. 如何在 Terraform 中定义企业应用程序的用户和组?我没有看到任何azuread看起来合适的资源。
    2. 同样,如何在 Terraform 中配置企业应用程序的配置(即使用 SCIM 端点 …

azure scim azure-active-directory terraform azure-databricks

5
推荐指数
1
解决办法
2511
查看次数

如何从 SQL 上的现有表在 databricks 中创建表

有人可以让我知道如何从 Azure sql server 上存在的表在 Azure Databricks 中创建表吗?(假设Databricks已经有到sql服务器的jdbc连接)。

例如,如果我的数据湖中的某个位置不存在该表,则以下命令将创建一个表。

CREATE TABLE IF NOT EXISTS newDB.MyTable USING delta LOCATION
'/mnt/dblake/BASE/Public/Adventureworks/delta/SalesLT.Product/'
Run Code Online (Sandbox Code Playgroud)

我想做同样的事情,但使用 SQL Server 上现有的表?

apache-spark pyspark azure-databricks delta-lake

5
推荐指数
1
解决办法
5818
查看次数

Changing Azure Databricks Workspace Settings via API

I would like to control the Workspace Settings in the Admin Console of Azure Databricks via API(REST)

How should I do this or does anyone have the list of keys which correspond to each setting?

Workspace Settings in Admin Console-Image:

在此输入图像描述

rest azure databricks azure-databricks

5
推荐指数
1
解决办法
931
查看次数

Azure Databricks 中 VIEW 的 OBJECT_DEFINITION

正如标题所述,是否能够object definition使用 Databricks 查询视图SQL,特别是对于 Azure Databricks?

就像使用 SQL Server 时一样,我可以使用函数OBJECT_DEFINITION或存储过程查询视图定义以sp_helptext显示.SELECT statementViews

我查遍了互联网,没有找到对此进行解释的人。也许没有选择?

谢谢。

databricks azure-databricks databricks-sql

5
推荐指数
1
解决办法
7047
查看次数

如何在 Databricks Notebook 的单元格中输入提示问题?

正如您所看到的,我正在使用的库要求输入内容,但没有可以输入内容的框/窗口。我如何在 y/n/u/f 之间进行输入?

在此输入图像描述

python databricks azure-databricks

5
推荐指数
0
解决办法
828
查看次数

Databricks 上的 Shap 值绘图错误,但在本地工作

我想做一个简单的形状分析并绘制 shap.force_plot。我注意到它在 .ipynb 文件中本地工作没有任何问题,但在 Databricks 上失败并显示以下错误消息:

Visualization omitted, Javascript library not loaded!
Have you run `initjs()` in this notebook? If this notebook was from another user you must 
also trust this notebook (File -> Trust notebook). If you are viewing  this notebook on 
github the Javascript has been stripped for security. If you are using JupyterLab this 
error is because a JupyterLab extension has not yet been written.
Run Code Online (Sandbox Code Playgroud)

代码:

import xgboost
import shap 

shap.initjs()

X, y = shap.datasets.boston()
bst = …
Run Code Online (Sandbox Code Playgroud)

python matplotlib databricks azure-databricks shap

5
推荐指数
1
解决办法
5778
查看次数

Azure Databricks:VNet 中群集上的自定义库出错

我们在 VNet 中使用 Azure Databricks 和单节点群集(运行时版本 10.4 LTS)。我们还需要使用自定义/私有 python 模块(wheel)。

在集群上安装库后,一切正常,但在集群重新启动并安装库后,执行任何单元时都会出现以下错误(取消/重新附加不能解决问题):

+ Failure starting repl. Try detaching and re-attaching the notebook.

java.lang.Exception: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient
    at org.apache.spark.sql.hive.HiveExternalCatalog.$anonfun$withClient$2(HiveExternalCatalog.scala:160)
    at org.apache.spark.sql.hive.HiveExternalCatalog.maybeSynchronized(HiveExternalCatalog.scala:112)
    at org.apache.spark.sql.hive.HiveExternalCatalog.$anonfun$withClient$1(HiveExternalCatalog.scala:150)
    at com.databricks.backend.daemon.driver.ProgressReporter$.withStatusCode(ProgressReporter.scala:364)
    at com.databricks.spark.util.SparkDatabricksProgressReporter$.withStatusCode(ProgressReporter.scala:34)
    at org.apache.spark.sql.hive.HiveExternalCatalog.withClient(HiveExternalCatalog.scala:149)
    at org.apache.spark.sql.hive.HiveExternalCatalog.databaseExists(HiveExternalCatalog.scala:300)
    at org.apache.spark.sql.internal.SharedState.externalCatalog$lzycompute(SharedState.scala:201)
    at org.apache.spark.sql.internal.SharedState.externalCatalog(SharedState.scala:192)
    at org.apache.spark.sql.hive.HiveSessionStateBuilder.externalCatalog(HiveSessionStateBuilder.scala:59)
    at org.apache.spark.sql.hive.HiveSessionStateBuilder.$anonfun$resourceLoader$1(HiveSessionStateBuilder.scala:66)
    at org.apache.spark.sql.hive.HiveSessionResourceLoader.client$lzycompute(HiveSessionStateBuilder.scala:160)
    at org.apache.spark.sql.hive.HiveSessionResourceLoader.client(HiveSessionStateBuilder.scala:160)
    at org.apache.spark.sql.hive.HiveSessionResourceLoader.$anonfun$addJar$1(HiveSessionStateBuilder.scala:164)
    at org.apache.spark.sql.hive.HiveSessionResourceLoader.$anonfun$addJar$1$adapted(HiveSessionStateBuilder.scala:163)
    at scala.collection.immutable.List.foreach(List.scala:431)
    at org.apache.spark.sql.hive.HiveSessionResourceLoader.addJar(HiveSessionStateBuilder.scala:163)
    at org.apache.spark.sql.execution.command.AddJarsCommand.$anonfun$run$1(resources.scala:33)
    at org.apache.spark.sql.execution.command.AddJarsCommand.$anonfun$run$1$adapted(resources.scala:33)
    at scala.collection.immutable.Stream.foreach(Stream.scala:533)
    at org.apache.spark.sql.execution.command.AddJarsCommand.run(resources.scala:33)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:80)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:78)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.executeCollect(commands.scala:89)
    at org.apache.spark.sql.execution.QueryExecution$$anonfun$$nestedInanonfun$eagerlyExecuteCommands$1$1.$anonfun$applyOrElse$1(QueryExecution.scala:160) …
Run Code Online (Sandbox Code Playgroud)

python azure-virtual-network databricks azure-databricks

5
推荐指数
1
解决办法
899
查看次数

pycaret.time_series.TSForecastingExperiment ImportError:无法从“sklearn.model_selection._search”导入名称“_check_param_grid”

在 databricks 中导入Pycaret time-series(beta)模块时,我收到以下错误(我们之前运行成功)。请求您帮助解决问题。

\n

使用中的 pycaret 版本:

\n
import pycaret\npycaret.__version__  # Out[1]: '3.0.0'\n
Run Code Online (Sandbox Code Playgroud)\n

使用的python版本:

\n
import sys\nsys.version #Out[9]: '3.8.10 (default, Mar 15 2022, 12:22:08) \\n[GCC 9.4.0]'\n
Run Code Online (Sandbox Code Playgroud)\n

以下是该问题的堆栈跟踪。

\n
from pycaret.time_series import TSForecastingExperiment\n\n/databricks/python_shell/dbruntime/PythonPackageImportsInstrumentation/__init__.py in import_patch(name, globals, locals, fromlist, level)\n    160             # Import the desired module. If you\xe2\x80\x99re seeing this while debugging a failed import,\n    161             # look at preceding stack frames for relevant error information.\n--> 162             original_result = python_builtin_import(name, globals, locals, fromlist, level)\n    163 \n    164             is_root_import …
Run Code Online (Sandbox Code Playgroud)

python azure-databricks pycaret sktime

5
推荐指数
1
解决办法
2703
查看次数

Azure databricks 存储库:如何通过 API 拉取

我正在使用 Azure DevOps 存储库将 Azure databricks 连接到我在 DevOps 中的存储库。我需要从 Azure DevOps 管道自动拉取。为此,我尝试使用 databricks API 进行拉取,但参考此链接,没有拉取方法。

按照说明并查看 swagger ,唯一可用的方法是: 仓库API 有没有办法通过 API 或 CLI 或任何其他方式以编程方式拉取?如果是,怎么办?

databricks azure-databricks databricks-repos

5
推荐指数
1
解决办法
1046
查看次数

Azure databricks %run magic 命令无法找到文件路径

我的工作区根文件夹下有 2 个笔记本。使用 %run magic cmd 从另一个笔记本调用一个笔记本会返回错误,指出找不到文件路径。这是我的命令:

%run /Users/name@comp.com/notebookB $arg1=val1 $arg2=val2
Run Code Online (Sandbox Code Playgroud)

runtime-error file-not-found databricks azure-databricks magic-command

5
推荐指数
1
解决办法
3124
查看次数