标签: azure-databricks

如何使用databricks-connect在本地执行Spark代码?

有没有办法使用databricks-connect在本地执行 Spark 代码?

原因是我想在 CI/CD 管道中执行一些测试,而不需要启动并运行集群。

azure apache-spark databricks azure-databricks

7
推荐指数
1
解决办法
2279
查看次数

如何将本地模块导入azure databricks笔记本?

我正在尝试使用 databrick 笔记本中的模块,但我完全被阻止了。我想执行以下命令或任何类似的命令,以允许我创建实例MyClass

from mypackage.mymodule import MyClass
Run Code Online (Sandbox Code Playgroud)

根据databrick的文档,我在本地开发了一个带有单个模块的python包,如下所示:

mypackage
|- __init__.py
|- setup.py
|- mymodule.py
Run Code Online (Sandbox Code Playgroud)

然后运行python setup.py bdist_wheel获取.whl文件。该目录最终是

mypackage
|- build
   |- ... whatever
|- src.egg-info
   |- ... whatever
|- dist
   |- src-0.1-py3-none-any.whl
|- __init__.py
|- setup.py
|- mymodule.py
Run Code Online (Sandbox Code Playgroud)

从这里,我按照说明将.whl文件上传到工作区。但现在我无法导入MyClass任何笔记本。

我已经尝试过以下所有方法:

  • 上传.whl带名称和不带名称的文件。
  • .whl其安装到集群中而不是上传。
  • 使用import mypackage
  • 使用dbutils.library.install('dbfs:/path/to/mypackage.whl/')(返回True)然后使用import ...
  • 不要上传.whl,而是在笔记本所在的目录中创建包文件夹。
  • 上传到我的文件夹和Shared文件夹
  • 上述所有组合。f.ex:使用不同的名称和用途上传import differentname

这让我发疯。这是一项非常简单的任务,我可以使用普通笔记本轻松完成。

python azure databricks azure-databricks

7
推荐指数
1
解决办法
1万
查看次数

您可以通过在 SQL 中运行“REFRESH TABLE tableName”命令或重新创建涉及的数据集/数据帧来显式使 Spark 中的缓存失效

我在 Azure 上使用 DataBricks 作为服务。这是我的集群信息:

在此输入图像描述

我按照命令运行,一切正常。

 %sql
 Select 
    * 
 from db_xxxxx.t_fxxxxxxxxx
 limit 10
Run Code Online (Sandbox Code Playgroud)

然后我更新了上表中的一些行。当我再次运行上面的命令时,出现此错误:

    Error in SQL statement: SparkException: Job aborted due to stage failure: Task 3 in stage 2823.0 failed 4 times, most recent failure: Lost task 3.3 in stage 2823.0 (TID 158824, 10.11.49.6, executor 14): com.databricks.sql.io.FileReadException: Error while reading file abfss:REDACTED_LOCAL_PART@storxfadev0501.dfs.core.windows.net/xsi-ed-faits/t_fait_xxxxxxxxxxx/_delta_log/00000000000000000022.json. It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by …
Run Code Online (Sandbox Code Playgroud)

azure-databricks

6
推荐指数
1
解决办法
4万
查看次数

如何在azure databricks中重命名数据库?

我正在尝试重命名 azure databricks 中的数据库,但收到以下错误:

输入“ALTER DATABASE inventory”时没有可行的替代方案

下面是代码:

%sql 
use inventory;
ALTER DATABASE inventory MODIFY NAME = new_inventory;
Run Code Online (Sandbox Code Playgroud)

请解释这个错误“在输入'ALTER DATABASE inventory时没有可行的替代方案”的含义以及如何解决它

apache-spark-sql databricks azure-databricks

6
推荐指数
1
解决办法
8993
查看次数

为 Azure 服务主体名称创建 Azure Databricks PAT 令牌

我无法通过门户将 Azure AD 服务主体名称添加到 Azure Databricks 中,但我能够在 Databricks API 端点的帮助下添加我的服务主体。如何为我的服务主体名称创建 PAT 令牌。

azure databricks azure-databricks

6
推荐指数
1
解决办法
8803
查看次数

使用 Spark(Databricks) 的并行 REST API 请求

我想利用 Spark(它在 Databricks 上运行,我正在使用 PySpark)向 REST API 发送并行请求。现在我可能面临两种情况:

  • REST API 1:返回 ~MB 量级的数据
  • REST API 2:返回~KB量级的数据。

关于如何在节点之间分配请求有什么建议吗?

谢谢!

rest apache-spark pyspark databricks azure-databricks

6
推荐指数
1
解决办法
6929
查看次数

如何在 Databricks 中使用 Selenium 并访问下载的文件并将其移动到安装的存储并保持 Chrome 和 ChromeDriver 版本同步?

我看过几篇关于在 Databricks 中使用 Selenium%sh来安装 Chrome 驱动程序和 Chrome 的帖子。这对我来说效果很好,但是当我需要下载文件时我遇到了很多麻烦。该文件会下载,但我在 databricks 的文件系统中找不到它。即使我在将 Chrome 实例化到 Azure Blob 存储上的挂载文件夹时更改了下载路径,下载后文件也不会放置在那里。还有一个问题是,如何在不手动更改版本号的情况下自动保持 Chrome 浏览器和 ChromeDriver 版本同步。

以下链接显示了有同样问题但没有明确答案的人:

https://forums.databricks.com/questions/19376/if-my-notebook-downloads-a-file-from-a-website-by.html

https://forums.databricks.com/questions/45388/selenium-in-databricks-with-add-experimental-optio.html

当我使用 Selenium Python 进行 Web 自动化时,有没有办法确定文件在 Azure Databricks 中的下载位置?

还有一些人在努力让 Selenium 正常运行: https://forums.databricks.com/questions/14814/selenium-in-databricks.html

不在路径错误中: https://webcache.googleusercontent.com/search? q=cache:NrvVKo4LLdIJ:/sf/ask/4053306071/ -databricks+&cd=5&hl=en&ct=clnk&gl=us

是否有在 Databricks 上使用 Selenium 和管理下载文件的明确指南?如何让 Chrome 浏览器和 ChromeDriver 版本自动保持同步?

python selenium pyspark databricks azure-databricks

6
推荐指数
1
解决办法
1万
查看次数

在 databricks 中加载增量表特定分区的最佳实践是什么?

我想知道加载增量表特定分区的最佳方法是什么?选项 2 是否在过滤之前加载所有表?

选项1 :

df = spark.read.format("delta").option('basePath','/mnt/raw/mytable/')\
   .load('/mnt/raw/mytable/ingestdate=20210703')
Run Code Online (Sandbox Code Playgroud)

(这里需要basePath选项吗?)

选项2:

df = spark.read.format("delta").load('/mnt/raw/mytable/')
df = df.filter(col('ingestdate')=='20210703')
Run Code Online (Sandbox Code Playgroud)

提前谢谢了 !

partitioning apache-spark pyspark azure-databricks delta-lake

6
推荐指数
1
解决办法
9306
查看次数

在 Databricks 笔记本中显示图像错误

我正在努力创建带有公司徽标的 databricks 笔记本模板。使用下面的代码显示图像会引发错误。

代码:

%md
<img src ='/test/image/MyImage.jpg'>
Run Code Online (Sandbox Code Playgroud)

错误:

HTTP ERROR 403: Invalid or missing CSRF token
Run Code Online (Sandbox Code Playgroud)

请指导我。

databricks azure-databricks azure-data-lake-gen2

6
推荐指数
1
解决办法
6695
查看次数

以 Excel 格式保存文件时 Databricks 出错:OSError: [Errno 95] 不支持操作

您好,我正在尝试以 Excel 格式保存数据帧文件。但不断收到此错误 OSError: [Errno 95] 不支持操作我正在尝试使用以下代码:

  filtered_df.to_excel('/dbfs/digital_nurture_abovejune.xlsx',index=False)
  dbutils.fs.cp('dbfs:/digital_nurture_abovejune.xlsx', path + 'output')
Run Code Online (Sandbox Code Playgroud)

错误的片段是:

 OSError                                   Traceback (most recent call last)

  filtered_df.to_excel('/dbfs/digital_nurture_abovejune.xlsx',index=False)
  2 dbutils.fs.cp('dbfs:/digital_nurture_abovejune.xlsx', path + 'output')

/databricks/python/lib/python3.8/site-packages/pandas/core/generic.py in to_excel(self, 
excel_writer, sheet_name, na_rep, float_format, columns, header, index, index_label, startrow, 
startcol, engine, merge_cells, encoding, inf_rep, verbose, freeze_panes, storage_options)
 2187             inf_rep=inf_rep,
 2188         )
 -> 2189         formatter.write(
 2190             excel_writer,
2191             sheet_name=sheet_name,

 /databricks/python/lib/python3.8/site-packages/pandas/io/formats/excel.py in write(self, writer, sheet_name, startrow, startcol, freeze_panes, engine, storage_options)
829             # make sure to close opened file handles
830             if need_save:
 --> 831 …
Run Code Online (Sandbox Code Playgroud)

python excel dataframe databricks azure-databricks

6
推荐指数
0
解决办法
5765
查看次数