标签: azure-databricks

如何使用 Databricks dbutils 从文件夹中删除所有文件

有人可以让我知道如何使用 databricks dbutils 删除文件夹中的所有文件。我已尝试以下操作,但不幸的是,Databricks 不支持通配符。

dbutils.fs.rm('adl://azurelake.azuredatalakestore.net/landing/stageone/*')
Run Code Online (Sandbox Code Playgroud)

谢谢

databricks azure-databricks dbutils

33
推荐指数
2
解决办法
7万
查看次数

用于开发的 Databricks 本地实例

我目前在一个小团队工作,该团队正在开发基于 Databricks 的解决方案。目前,我们的规模足够小,可以使用 Databricks 的云实例进行工作。随着团队的成长,这实际上并不实用。

是否有可以出于开发目的而安装的 Databricks 的“本地”安装(它不需要是可扩展版本,但需要本质上具有完整功能)?换句话说,是否有一种方法可以让每个开发人员在其本地计算机上创建自己的 Databricks 开发实例?

是否有其他方法为每个开发人员提供专用的 Databricks 环境?

databricks azure-databricks aws-databricks

21
推荐指数
1
解决办法
1万
查看次数

在特定单元格之后停止执行 Databricks 笔记本

我在 Databricks 笔记本上尝试了 sys.exit(0)(Python 代码)和 dbutils.notebook.exit() 。但这两个选项都不起作用。请建议任何其他方法来停止 Databricks 笔记本中特定单元格之后的代码执行。

azure-databricks

18
推荐指数
2
解决办法
4万
查看次数

df 到表抛出错误 TypeError: __init__() 获得参数“schema”的多个值

我在 pandas 中有数据框:-purchase_df。我想将它转换为sql表,这样我就可以在pandas中执行sql查询。我尝试过这个方法

purchase_df.to_sql('purchase_df', con=engine, if_exists='replace', index=False)
Run Code Online (Sandbox Code Playgroud)

它抛出一个错误

TypeError: __init__() got multiple values for argument 'schema'
Run Code Online (Sandbox Code Playgroud)

我的数据框名称为purchase_df,我需要对其执行sql 查询。我需要对此数据框执行 sql 查询,如下所示 ....engine.execute('''select * from buy_df where condition''')。为此,我需要将数据帧转换为 sql 表,因为在我们的服务器中未安装 pandas_sql,仅安装了 sql alchemy。

我在本地 pycharm 中运行此代码,它工作得很好,但是当我在 databrick 笔记本中尝试此代码时,它显示错误。即使一周前,它在 databrick 笔记本中也运行良好。帮我解决这个问题。

注意:- pandas 版本“1.3.4”名称:SQLAlchemy 版本:2.0.0

python sqlalchemy pandas azure-databricks

18
推荐指数
2
解决办法
3万
查看次数

在 Databricks 中打印秘密值

尽管秘密用于屏蔽机密信息,但我需要查看秘密在 Databricks 之外使用它的价值。当我简单地打印秘密时,它会显示[已编辑]。

print(dbutils.secrets.get(scope="myScope", key="myKey"))

Out:
[REDACTED]
Run Code Online (Sandbox Code Playgroud)

如何打印秘密值?

amazon-web-services apache-spark pyspark databricks azure-databricks

16
推荐指数
1
解决办法
2万
查看次数

在Databricks(DBFS)中递归列出目录和子目录的文件

使用python/dbutils,如何在Databricks文件系统(DBFS)中递归显示当前目录和子目录的文件。

azure python-3.x databricks azure-databricks

15
推荐指数
2
解决办法
4万
查看次数

如何从 Azure databricks 在 Azure Blob 中创建空文件夹

我有一个场景,我想列出 Azure Blob 中目录内的所有文件夹。如果不存在文件夹,则创建一个具有特定名称的新文件夹。

我正在尝试使用 dbutils.fs.ls(path) 列出文件夹。

但上述命令的问题是,如果路径不存在,它就会失败,这对我来说是一个有效的场景。

如果我的程序第一次运行,路径将不存在,并且 dbutils.fs.ls 命令将失败。有什么方法可以从 Databricks 动态处理这种情况。

如果我可以在执行作业之前从 Databricks 在 Azure Blob 中创建一个空文件夹,它也对我有用。

我尝试从 databricks 笔记本运行以下命令

   %sh mkdir -p /mnt/<mountName>/path/folderName 
Run Code Online (Sandbox Code Playgroud)

这里命令成功运行,即使我在 Azure Blob 中的容器已安装,它也不会创建该文件夹。抱歉这么长的帖子。任何帮助深表感谢。提前致谢

azure azure-blob-storage databricks azure-databricks

14
推荐指数
1
解决办法
3万
查看次数

Azure Databricks 中的 Python 版本

我正在尝试找出我在 Databricks 中使用的 python 版本。

为了找出我尝试过的

import sys
print(sys.version)
Run Code Online (Sandbox Code Playgroud)

我得到的输出为3.7.3

但是,当我转到 Cluster --> SparkUI --> Environment 时

我看到集群 Python 版本是2

这是指哪个版本?

当我尝试跑步时

%sh python --version
Run Code Online (Sandbox Code Playgroud)

我仍然得到 Python 3.7.3

每个工作节点/驱动节点可以有不同的 python 版本吗?

注意:我使用的设置有 1 个工作节点和 1 个驱动程序节点(总共 2 个节点具有相同的规格),Databricks 运行时版本为 6.5 ML

python databricks azure-databricks

13
推荐指数
2
解决办法
3万
查看次数

错误:检测到 fs.azure.account.key 的配置值无效

我正在使用 Azure Databricks 使用 ADLS Gen2 在 Azure Blob 存储中创建增量表,但在最后一行收到错误“初始化配置失败检测到 fs.azure.account.key 的配置值无效”

%scala
spark.conf.set(
    "fs.azure.account.oauth2.client.secret",
    "<storage-account-access-key>")
friends = spark.read.csv('myfile/fakefriends-header.csv',
   inferSchema = True, header = True)
friends.write.format("delta").mode('overwrite')\
   .save("abfss://tempfile@tempaccount.dfs.core.windows.net/myfile/friends_new")
Run Code Online (Sandbox Code Playgroud)

请帮助我如何避免这个错误

azure azure-blob-storage azure-databricks

13
推荐指数
2
解决办法
5万
查看次数

列出 databricks 秘密范围并在 azure databricks 中查找引用的 keyvault

我们如何在 databricks 工作区中找到现有的秘密范围。Azure Databricks 中的特定 SecretScope 引用了哪个 keyvault?

azure-keyvault databricks azure-databricks

13
推荐指数
2
解决办法
3万
查看次数