标签: azure-databricks

使用 Terraform 配置 Azure AD Databricks SCIM 应用程序

我正在尝试创建和配置Azure Databricks SCIM 配置连接器，以便我可以从 AAD 在我的 Databricks 工作区中配置用户。

按照这些说明，我可以让它手动工作。也就是说，可以在 Azure 门户中创建和设置应用程序，并且我选择的用户可以在 Databricks 中同步。（这个过程并不完全简单。在做任何事情之前需要进行大量的摆弄，我不记得了，需要进行配置设置。）

当我尝试将其转换为 Terraform 时，我并没有走得太远：

我可以使用 Terraform 创建应用程序，使用创建 Databricks 工作区资源的相同服务主体：

data "azuread_application_template" "scim" {
  display_name = "Azure Databricks SCIM Provisioning Connector"
}

resource "azuread_application" "scim" {
  display_name = "${var.name}-scim"
  template_id  = data.azuread_application_template.scim.template_id

  feature_tags {
    enterprise = true
    gallery    = true
  }
}

Run Code Online (Sandbox Code Playgroud)

同样，我可以非常轻松地为我的服务主体创建 Databricks 访问令牌：

resource "databricks_token" "scim" {
  comment = "SCIM Integration"
}

Run Code Online (Sandbox Code Playgroud)

现在我被困住了：
1. 如何在 Terraform 中定义企业应用程序的用户和组？我没有看到任何azuread看起来合适的资源。
2. 同样，如何在 Terraform 中配置企业应用程序的配置（即使用 SCIM 端点 …

azure scim azure-active-directory terraform azure-databricks

Xop*_*ter

2022 02-01

5
推荐指数

1
解决办法

2511
查看次数

如何从 SQL 上的现有表在 databricks 中创建表

有人可以让我知道如何从 Azure sql server 上存在的表在 Azure Databricks 中创建表吗？（假设Databricks已经有到sql服务器的jdbc连接）。

例如，如果我的数据湖中的某个位置不存在该表，则以下命令将创建一个表。

CREATE TABLE IF NOT EXISTS newDB.MyTable USING delta LOCATION
'/mnt/dblake/BASE/Public/Adventureworks/delta/SalesLT.Product/'

Run Code Online (Sandbox Code Playgroud)

我想做同样的事情，但使用 SQL Server 上现有的表？

apache-spark pyspark azure-databricks delta-lake

Pat*_*son

lucky-day

5
推荐指数

1
解决办法

5818
查看次数

Changing Azure Databricks Workspace Settings via API

I would like to control the Workspace Settings in the Admin Console of Azure Databricks via API(REST)

How should I do this or does anyone have the list of keys which correspond to each setting?

Workspace Settings in Admin Console-Image:

rest azure databricks azure-databricks

Kri*_*a16

2022 03-25

5
推荐指数

1
解决办法

931
查看次数

Azure Databricks 中 VIEW 的 OBJECT_DEFINITION

正如标题所述，是否能够object definition使用 Databricks 查询视图SQL，特别是对于 Azure Databricks？

就像使用 SQL Server 时一样，我可以使用函数OBJECT_DEFINITION或存储过程查询视图定义以sp_helptext显示.SELECT statementViews

我查遍了互联网，没有找到对此进行解释的人。也许没有选择？

谢谢。

databricks azure-databricks databricks-sql

War*_*aud

2022 04-20

5
推荐指数

1
解决办法

7047
查看次数

如何在 Databricks Notebook 的单元格中输入提示问题？

正如您所看到的，我正在使用的库要求输入内容，但没有可以输入内容的框/窗口。我如何在 y/n/u/f 之间进行输入？

python databricks azure-databricks

Ama*_*ngh

2022 05-11

5
推荐指数

0
解决办法

828
查看次数

Databricks 上的 Shap 值绘图错误，但在本地工作

我想做一个简单的形状分析并绘制 shap.force_plot。我注意到它在 .ipynb 文件中本地工作没有任何问题，但在 Databricks 上失败并显示以下错误消息：

Visualization omitted, Javascript library not loaded!
Have you run `initjs()` in this notebook? If this notebook was from another user you must 
also trust this notebook (File -> Trust notebook). If you are viewing  this notebook on 
github the Javascript has been stripped for security. If you are using JupyterLab this 
error is because a JupyterLab extension has not yet been written.

Run Code Online (Sandbox Code Playgroud)

代码：

import xgboost
import shap 

shap.initjs()

X, y = shap.datasets.boston()
bst = …

Run Code Online (Sandbox Code Playgroud)

python matplotlib databricks azure-databricks shap

laz*_*rea

2022 05-05

5
推荐指数

1
解决办法

5778
查看次数

Azure Databricks：VNet 中群集上的自定义库出错

我们在 VNet 中使用 Azure Databricks 和单节点群集（运行时版本 10.4 LTS）。我们还需要使用自定义/私有 python 模块（wheel）。

在集群上安装库后，一切正常，但在集群重新启动并安装库后，执行任何单元时都会出现以下错误（取消/重新附加不能解决问题）：

+ Failure starting repl. Try detaching and re-attaching the notebook.

java.lang.Exception: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient
    at org.apache.spark.sql.hive.HiveExternalCatalog.$anonfun$withClient$2(HiveExternalCatalog.scala:160)
    at org.apache.spark.sql.hive.HiveExternalCatalog.maybeSynchronized(HiveExternalCatalog.scala:112)
    at org.apache.spark.sql.hive.HiveExternalCatalog.$anonfun$withClient$1(HiveExternalCatalog.scala:150)
    at com.databricks.backend.daemon.driver.ProgressReporter$.withStatusCode(ProgressReporter.scala:364)
    at com.databricks.spark.util.SparkDatabricksProgressReporter$.withStatusCode(ProgressReporter.scala:34)
    at org.apache.spark.sql.hive.HiveExternalCatalog.withClient(HiveExternalCatalog.scala:149)
    at org.apache.spark.sql.hive.HiveExternalCatalog.databaseExists(HiveExternalCatalog.scala:300)
    at org.apache.spark.sql.internal.SharedState.externalCatalog$lzycompute(SharedState.scala:201)
    at org.apache.spark.sql.internal.SharedState.externalCatalog(SharedState.scala:192)
    at org.apache.spark.sql.hive.HiveSessionStateBuilder.externalCatalog(HiveSessionStateBuilder.scala:59)
    at org.apache.spark.sql.hive.HiveSessionStateBuilder.$anonfun$resourceLoader$1(HiveSessionStateBuilder.scala:66)
    at org.apache.spark.sql.hive.HiveSessionResourceLoader.client$lzycompute(HiveSessionStateBuilder.scala:160)
    at org.apache.spark.sql.hive.HiveSessionResourceLoader.client(HiveSessionStateBuilder.scala:160)
    at org.apache.spark.sql.hive.HiveSessionResourceLoader.$anonfun$addJar$1(HiveSessionStateBuilder.scala:164)
    at org.apache.spark.sql.hive.HiveSessionResourceLoader.$anonfun$addJar$1$adapted(HiveSessionStateBuilder.scala:163)
    at scala.collection.immutable.List.foreach(List.scala:431)
    at org.apache.spark.sql.hive.HiveSessionResourceLoader.addJar(HiveSessionStateBuilder.scala:163)
    at org.apache.spark.sql.execution.command.AddJarsCommand.$anonfun$run$1(resources.scala:33)
    at org.apache.spark.sql.execution.command.AddJarsCommand.$anonfun$run$1$adapted(resources.scala:33)
    at scala.collection.immutable.Stream.foreach(Stream.scala:533)
    at org.apache.spark.sql.execution.command.AddJarsCommand.run(resources.scala:33)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:80)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:78)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.executeCollect(commands.scala:89)
    at org.apache.spark.sql.execution.QueryExecution$$anonfun$$nestedInanonfun$eagerlyExecuteCommands$1$1.$anonfun$applyOrElse$1(QueryExecution.scala:160) …

Run Code Online (Sandbox Code Playgroud)

python azure-virtual-network databricks azure-databricks

Ale*_*Weh

2022 05-08

5
推荐指数

1
解决办法

899
查看次数

pycaret.time_series.TSForecastingExperiment ImportError：无法从“sklearn.model_selection._search”导入名称“_check_param_grid”

在 databricks 中导入Pycaret time-series(beta)模块时，我收到以下错误（我们之前运行成功）。请求您帮助解决问题。

使用中的 pycaret 版本：

import pycaret\npycaret.__version__  # Out[1]: '3.0.0'\n

Run Code Online (Sandbox Code Playgroud)\n

使用的python版本：

import sys\nsys.version #Out[9]: '3.8.10 (default, Mar 15 2022, 12:22:08) \\n[GCC 9.4.0]'\n

Run Code Online (Sandbox Code Playgroud)\n

以下是该问题的堆栈跟踪。

from pycaret.time_series import TSForecastingExperiment\n\n/databricks/python_shell/dbruntime/PythonPackageImportsInstrumentation/__init__.py in import_patch(name, globals, locals, fromlist, level)\n    160             # Import the desired module. If you\xe2\x80\x99re seeing this while debugging a failed import,\n    161             # look at preceding stack frames for relevant error information.\n--> 162             original_result = python_builtin_import(name, globals, locals, fromlist, level)\n    163 \n    164             is_root_import …

Run Code Online (Sandbox Code Playgroud)

python azure-databricks pycaret sktime

nik*_*kn8

lucky-day

5
推荐指数

1
解决办法

2703
查看次数

Azure databricks 存储库：如何通过 API 拉取

我正在使用 Azure DevOps 存储库将 Azure databricks 连接到我在 DevOps 中的存储库。我需要从 Azure DevOps 管道自动拉取。为此，我尝试使用 databricks API 进行拉取，但参考此链接，没有拉取方法。

按照说明并查看 swagger ，唯一可用的方法是： 有没有办法通过 API 或 CLI 或任何其他方式以编程方式拉取？如果是，怎么办？

databricks azure-databricks databricks-repos

E. *_*fan

2022 05-17

5
推荐指数

1
解决办法

1046
查看次数

Azure databricks %run magic 命令无法找到文件路径

我的工作区根文件夹下有 2 个笔记本。使用 %run magic cmd 从另一个笔记本调用一个笔记本会返回错误，指出找不到文件路径。这是我的命令：

%run /Users/name@comp.com/notebookB $arg1=val1 $arg2=val2

Run Code Online (Sandbox Code Playgroud)

runtime-error file-not-found databricks azure-databricks magic-command

sot*_*otn

2022 07-07

5
推荐指数

1
解决办法

3124
查看次数

标签统计

azure-databricks ×10

databricks ×7

python ×4

azure ×2

apache-spark ×1

azure-active-directory ×1

azure-virtual-network ×1

databricks-repos ×1

databricks-sql ×1

delta-lake ×1

file-not-found ×1

magic-command ×1

matplotlib ×1

pycaret ×1

pyspark ×1

rest ×1

runtime-error ×1

scim ×1

shap ×1

sktime ×1

terraform ×1

标签 统计

标签统计