标签: azure-databricks

如何使用 Databricks dbutils 从文件夹中删除所有文件

有人可以让我知道如何使用 databricks dbutils 删除文件夹中的所有文件。我已尝试以下操作，但不幸的是，Databricks 不支持通配符。

dbutils.fs.rm('adl://azurelake.azuredatalakestore.net/landing/stageone/*')

Run Code Online (Sandbox Code Playgroud)

谢谢

databricks azure-databricks dbutils

Car*_*onp

2022 08-09

33
推荐指数

2
解决办法

7万
查看次数

用于开发的 Databricks 本地实例

我目前在一个小团队工作，该团队正在开发基于 Databricks 的解决方案。目前，我们的规模足够小，可以使用 Databricks 的云实例进行工作。随着团队的成长，这实际上并不实用。

是否有可以出于开发目的而安装的 Databricks 的“本地”安装（它不需要是可扩展版本，但需要本质上具有完整功能）？换句话说，是否有一种方法可以让每个开发人员在其本地计算机上创建自己的 Databricks 开发实例？

是否有其他方法为每个开发人员提供专用的 Databricks 环境？

databricks azure-databricks aws-databricks

Joh*_*ohn

2020 09-12

21
推荐指数

1
解决办法

1万
查看次数

在特定单元格之后停止执行 Databricks 笔记本

我在 Databricks 笔记本上尝试了 sys.exit(0)（Python 代码）和 dbutils.notebook.exit() 。但这两个选项都不起作用。请建议任何其他方法来停止 Databricks 笔记本中特定单元格之后的代码执行。

azure-databricks

siz*_*abe

lucky-day

18
推荐指数

2
解决办法

4万
查看次数

df 到表抛出错误 TypeError: init() 获得参数“schema”的多个值

我在 pandas 中有数据框：-purchase_df。我想将它转换为sql表，这样我就可以在pandas中执行sql查询。我尝试过这个方法

purchase_df.to_sql('purchase_df', con=engine, if_exists='replace', index=False)

Run Code Online (Sandbox Code Playgroud)

它抛出一个错误

TypeError: __init__() got multiple values for argument 'schema'

Run Code Online (Sandbox Code Playgroud)

我的数据框名称为purchase_df，我需要对其执行sql 查询。我需要对此数据框执行 sql 查询，如下所示 ....engine.execute('''select * from buy_df where condition''')。为此，我需要将数据帧转换为 sql 表，因为在我们的服务器中未安装 pandas_sql，仅安装了 sql alchemy。

我在本地 pycharm 中运行此代码，它工作得很好，但是当我在 databrick 笔记本中尝试此代码时，它显示错误。即使一周前，它在 databrick 笔记本中也运行良好。帮我解决这个问题。

注意：- pandas 版本“1.3.4”名称：SQLAlchemy 版本：2.0.0

python sqlalchemy pandas azure-databricks

Arp*_*ire

2023 01-30

18
推荐指数

2
解决办法

3万
查看次数

在 Databricks 中打印秘密值

尽管秘密用于屏蔽机密信息，但我需要查看秘密在 Databricks 之外使用它的价值。当我简单地打印秘密时，它会显示[已编辑]。

print(dbutils.secrets.get(scope="myScope", key="myKey"))

Out:
[REDACTED]

Run Code Online (Sandbox Code Playgroud)

如何打印秘密值？

amazon-web-services apache-spark pyspark databricks azure-databricks

ayk*_*dem

2022 05-02

16
推荐指数

1
解决办法

2万
查看次数

在Databricks（DBFS）中递归列出目录和子目录的文件

使用python/dbutils，如何在Databricks文件系统（DBFS）中递归显示当前目录和子目录的文件。

azure python-3.x databricks azure-databricks

Kir*_*n A

2020 09-21

15
推荐指数

2
解决办法

4万
查看次数

如何从 Azure databricks 在 Azure Blob 中创建空文件夹

我有一个场景，我想列出 Azure Blob 中目录内的所有文件夹。如果不存在文件夹，则创建一个具有特定名称的新文件夹。

我正在尝试使用 dbutils.fs.ls(path) 列出文件夹。

但上述命令的问题是，如果路径不存在，它就会失败，这对我来说是一个有效的场景。

如果我的程序第一次运行，路径将不存在，并且 dbutils.fs.ls 命令将失败。有什么方法可以从 Databricks 动态处理这种情况。

如果我可以在执行作业之前从 Databricks 在 Azure Blob 中创建一个空文件夹，它也对我有用。

我尝试从 databricks 笔记本运行以下命令

   %sh mkdir -p /mnt/<mountName>/path/folderName

Run Code Online (Sandbox Code Playgroud)

这里命令成功运行，即使我在 Azure Blob 中的容器已安装，它也不会创建该文件夹。抱歉这么长的帖子。任何帮助深表感谢。提前致谢

azure azure-blob-storage databricks azure-databricks

Sai*_*kat

lucky-day

14
推荐指数

1
解决办法

3万
查看次数

Azure Databricks 中的 Python 版本

我正在尝试找出我在 Databricks 中使用的 python 版本。

为了找出我尝试过的

import sys
print(sys.version)

Run Code Online (Sandbox Code Playgroud)

我得到的输出为3.7.3

但是，当我转到 Cluster --> SparkUI --> Environment 时

我看到集群 Python 版本是2。

这是指哪个版本？

当我尝试跑步时

%sh python --version

Run Code Online (Sandbox Code Playgroud)

我仍然得到 Python 3.7.3

每个工作节点/驱动节点可以有不同的 python 版本吗？

注意：我使用的设置有 1 个工作节点和 1 个驱动程序节点（总共 2 个节点具有相同的规格），Databricks 运行时版本为 6.5 ML

python databricks azure-databricks

lea*_*ner

2020 06-10

13
推荐指数

2
解决办法

3万
查看次数

错误：检测到 fs.azure.account.key 的配置值无效

我正在使用 Azure Databricks 使用 ADLS Gen2 在 Azure Blob 存储中创建增量表，但在最后一行收到错误“初始化配置失败检测到 fs.azure.account.key 的配置值无效”

%scala
spark.conf.set(
    "fs.azure.account.oauth2.client.secret",
    "<storage-account-access-key>")
friends = spark.read.csv('myfile/fakefriends-header.csv',
   inferSchema = True, header = True)
friends.write.format("delta").mode('overwrite')\
   .save("abfss://tempfile@tempaccount.dfs.core.windows.net/myfile/friends_new")

Run Code Online (Sandbox Code Playgroud)

请帮助我如何避免这个错误

azure azure-blob-storage azure-databricks

Nab*_*man

2021 11-03

13
推荐指数

2
解决办法

5万
查看次数