标签: databricks

如何使用 Databricks dbutils 从文件夹中删除所有文件

有人可以让我知道如何使用 databricks dbutils 删除文件夹中的所有文件。我已尝试以下操作,但不幸的是,Databricks 不支持通配符。

dbutils.fs.rm('adl://azurelake.azuredatalakestore.net/landing/stageone/*')
Run Code Online (Sandbox Code Playgroud)

谢谢

databricks azure-databricks dbutils

33
推荐指数
2
解决办法
7万
查看次数

Databricks:从 pandas 创建 Spark 数据框架时出现问题

我有一个 pandas 数据框,我想将其转换为 Spark 数据框。通常,我使用下面的代码从 pandas 创建 Spark 数据框,但突然我开始收到以下错误,我知道 pandas 已删除 iteritems() 但我当前的 pandas 版本是 2.0.0 并且我尝试安装较小的版本并尝试创建 Spark df 但我仍然遇到相同的错误。该错误在 Spark 函数内部调用。解决这个问题的办法是什么?我应该安装哪个 pandas 版本才能创建 Spark df. 我还尝试更改集群数据块的运行时并尝试重新运行,但仍然遇到相同的错误。

import pandas as pd
spark.createDataFrame(pd.DataFrame({'i':[1,2,3],'j':[1,2,3]}))

error:-
UserWarning: createDataFrame attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true; however, failed by the reason below:
  'DataFrame' object has no attribute 'iteritems'
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.
  warn(msg)
AttributeError: 'DataFrame' object has no attribute 'iteritems'
Run Code Online (Sandbox Code Playgroud)

python pandas apache-spark pyspark databricks

26
推荐指数
3
解决办法
2万
查看次数

使用pyspark获取列的数据类型

我们正在从MongoDB读取数据Collection.Collection列有两个不同的值(例如:) (bson.Int64,int) (int,float).

我试图使用pyspark获取数据类型.

我的问题是有些列有不同的数据类型.

假设quantity并且weight是列

quantity           weight
---------          --------
12300              656
123566000000       789.6767
1238               56.22
345                23
345566677777789    21
Run Code Online (Sandbox Code Playgroud)

实际上我们没有为mongo集合的任何列定义数据类型.

当我从中查询计数时 pyspark dataframe

dataframe.count()
Run Code Online (Sandbox Code Playgroud)

我这样的例外

"Cannot cast STRING into a DoubleType (value: BsonString{value='200.0'})"
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark databricks

24
推荐指数
4
解决办法
5万
查看次数

在Spark数据帧中爆炸嵌套的Struct

我正在研究Databricks 示例.数据框架的架构如下所示:

> parquetDF.printSchema
root
|-- department: struct (nullable = true)
|    |-- id: string (nullable = true)
|    |-- name: string (nullable = true)
|-- employees: array (nullable = true)
|    |-- element: struct (containsNull = true)
|    |    |-- firstName: string (nullable = true)
|    |    |-- lastName: string (nullable = true)
|    |    |-- email: string (nullable = true)
|    |    |-- salary: integer (nullable = true)
Run Code Online (Sandbox Code Playgroud)

在该示例中,他们将展示如何将employees列分解为4个附加列:

val explodeDF = parquetDF.explode($"employees") { 
case Row(employee: Seq[Row]) …
Run Code Online (Sandbox Code Playgroud)

scala distributed-computing apache-spark spark-dataframe databricks

21
推荐指数
2
解决办法
3万
查看次数

用于开发的 Databricks 本地实例

我目前在一个小团队工作,该团队正在开发基于 Databricks 的解决方案。目前,我们的规模足够小,可以使用 Databricks 的云实例进行工作。随着团队的成长,这实际上并不实用。

是否有可以出于开发目的而安装的 Databricks 的“本地”安装(它不需要是可扩展版本,但需要本质上具有完整功能)?换句话说,是否有一种方法可以让每个开发人员在其本地计算机上创建自己的 Databricks 开发实例?

是否有其他方法为每个开发人员提供专用的 Databricks 环境?

databricks azure-databricks aws-databricks

21
推荐指数
1
解决办法
1万
查看次数

lstm 将不会使用 cuDNN 内核,因为它不符合标准。在 GPU 上运行时,它将使用通用 GPU 内核作为后备

我正在使用 GPU 在 Databricks 上运行以下 LSTM 代码

model = Sequential()
model.add(LSTM(64, activation=LeakyReLU(alpha=0.05), batch_input_shape=(1, timesteps, n_features), 
    stateful=False, return_sequences = True))
model.add(Dropout(0.2))
model.add(LSTM(32))
model.add(Dropout(0.2))
model.add(Dense(n_features))
model.compile(loss='mean_squared_error', optimizer=Adam(learning_rate = 0.001), metrics='acc')
model.fit(generator, epochs=epochs, verbose=0, shuffle=False)
Run Code Online (Sandbox Code Playgroud)

但不断出现以下警告

WARNING:tensorflow:Layer lstm will not use cuDNN kernels since it doesn't meet the criteria. It will use a generic GPU kernel as fallback when running on GPU.
Run Code Online (Sandbox Code Playgroud)

它的训练速度比没有 GPU 时慢得多。我正在使用 DBR 9.0 ML(包括 Apache Spark 3.1.2、GPU、Scala 2.12),我是否需要任何其他库?

python lstm tensorflow databricks

19
推荐指数
2
解决办法
3万
查看次数

如何在 pyspark 中查找数据帧的大小(以 MB 为单位)?

如何在 pyspark 中查找数据帧的大小(以 MB 为单位),

df=spark.read.json("/Filestore/tables/test.json") 我想知道 df 或 test.json 的大小如何

scala dataframe apache-spark pyspark databricks

18
推荐指数
2
解决办法
3万
查看次数

在 Databricks 中打印秘密值

尽管秘密用于屏蔽机密信息,但我需要查看秘密在 Databricks 之外使用它的价值。当我简单地打印秘密时,它会显示[已编辑]。

print(dbutils.secrets.get(scope="myScope", key="myKey"))

Out:
[REDACTED]
Run Code Online (Sandbox Code Playgroud)

如何打印秘密值?

amazon-web-services apache-spark pyspark databricks azure-databricks

16
推荐指数
1
解决办法
2万
查看次数

在Databricks(DBFS)中递归列出目录和子目录的文件

使用python/dbutils,如何在Databricks文件系统(DBFS)中递归显示当前目录和子目录的文件。

azure python-3.x databricks azure-databricks

15
推荐指数
2
解决办法
4万
查看次数

在 Databricks Connect 和本地 Spark 环境之间切换

我希望使用 Databricks Connect 来开发 pyspark 管道。DBConnect 真的很棒,因为我能够在实际数据所在的集群上运行我的代码,因此它非常适合集成测试,但我也希望能够在开发和单元测试(pytest使用pytest-spark)期间,简单地使用本地火花环境。

有没有办法配置 DBConnect,以便对于一个用例我只需使用本地 Spark 环境,但对于另一个用例则使用 DBConnect?

apache-spark pyspark databricks databricks-connect

14
推荐指数
1
解决办法
1784
查看次数