标签: azure-databricks

如何使用databricks-connect在本地执行Spark代码？

有没有办法使用databricks-connect在本地执行 Spark 代码？

原因是我想在 CI/CD 管道中执行一些测试，而不需要启动并运行集群。

azure apache-spark databricks azure-databricks

fla*_*ppy

lucky-day

7
推荐指数

1
解决办法

2279
查看次数

如何将本地模块导入azure databricks笔记本？

我正在尝试使用 databrick 笔记本中的模块，但我完全被阻止了。我想执行以下命令或任何类似的命令，以允许我创建实例MyClass

from mypackage.mymodule import MyClass

Run Code Online (Sandbox Code Playgroud)

根据databrick的文档，我在本地开发了一个带有单个模块的python包，如下所示：

mypackage
|- __init__.py
|- setup.py
|- mymodule.py

Run Code Online (Sandbox Code Playgroud)

然后运行python setup.py bdist_wheel获取.whl文件。该目录最终是

mypackage
|- build
   |- ... whatever
|- src.egg-info
   |- ... whatever
|- dist
   |- src-0.1-py3-none-any.whl
|- __init__.py
|- setup.py
|- mymodule.py

Run Code Online (Sandbox Code Playgroud)

从这里，我按照说明将.whl文件上传到工作区。但现在我无法导入MyClass任何笔记本。

我已经尝试过以下所有方法：

上传.whl带名称和不带名称的文件。
将.whl其安装到集群中而不是上传。
使用import mypackage
使用dbutils.library.install('dbfs:/path/to/mypackage.whl/')（返回True）然后使用import ...
不要上传.whl，而是在笔记本所在的目录中创建包文件夹。
上传到我的文件夹和Shared文件夹
上述所有组合。f.ex：使用不同的名称和用途上传import differentname

这让我发疯。这是一项非常简单的任务，我可以使用普通笔记本轻松完成。

python azure databricks azure-databricks

lsm*_*mor

lucky-day

7
推荐指数

1
解决办法

1万
查看次数

您可以通过在 SQL 中运行“REFRESH TABLE tableName”命令或重新创建涉及的数据集/数据帧来显式使 Spark 中的缓存失效

我在 Azure 上使用 DataBricks 作为服务。这是我的集群信息：

我按照命令运行，一切正常。

 %sql
 Select 
    * 
 from db_xxxxx.t_fxxxxxxxxx
 limit 10

Run Code Online (Sandbox Code Playgroud)

然后我更新了上表中的一些行。当我再次运行上面的命令时，出现此错误：

    Error in SQL statement: SparkException: Job aborted due to stage failure: Task 3 in stage 2823.0 failed 4 times, most recent failure: Lost task 3.3 in stage 2823.0 (TID 158824, 10.11.49.6, executor 14): com.databricks.sql.io.FileReadException: Error while reading file abfss:REDACTED_LOCAL_PART@storxfadev0501.dfs.core.windows.net/xsi-ed-faits/t_fait_xxxxxxxxxxx/_delta_log/00000000000000000022.json. It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by …

Run Code Online (Sandbox Code Playgroud)

azure-databricks

Ard*_*oli

lucky-day

6
推荐指数

1
解决办法

4万
查看次数

如何在azure databricks中重命名数据库？

我正在尝试重命名 azure databricks 中的数据库，但收到以下错误：

输入“ALTER DATABASE inventory”时没有可行的替代方案

下面是代码：

%sql 
use inventory;
ALTER DATABASE inventory MODIFY NAME = new_inventory;

Run Code Online (Sandbox Code Playgroud)

请解释这个错误“在输入'ALTER DATABASE inventory时没有可行的替代方案”的含义以及如何解决它

apache-spark-sql databricks azure-databricks

Rah*_*mar

2021 03-05

6
推荐指数

1
解决办法

8993
查看次数

为 Azure 服务主体名称创建 Azure Databricks PAT 令牌

我无法通过门户将 Azure AD 服务主体名称添加到 Azure Databricks 中，但我能够在 Databricks API 端点的帮助下添加我的服务主体。如何为我的服务主体名称创建 PAT 令牌。

azure databricks azure-databricks

Tha*_*n K

2022 07-19

6
推荐指数

1
解决办法

8803
查看次数

使用 Spark(Databricks) 的并行 REST API 请求

我想利用 Spark（它在 Databricks 上运行，我正在使用 PySpark）向 REST API 发送并行请求。现在我可能面临两种情况：

REST API 1：返回 ~MB 量级的数据
REST API 2：返回~KB量级的数据。

关于如何在节点之间分配请求有什么建议吗？

谢谢！

rest apache-spark pyspark databricks azure-databricks

Fel*_*ezR

lucky-day

6
推荐指数

1
解决办法

6929
查看次数

如何在 Databricks 中使用 Selenium 并访问下载的文件并将其移动到安装的存储并保持 Chrome 和 ChromeDriver 版本同步？

我看过几篇关于在 Databricks 中使用 Selenium%sh来安装 Chrome 驱动程序和 Chrome 的帖子。这对我来说效果很好，但是当我需要下载文件时我遇到了很多麻烦。该文件会下载，但我在 databricks 的文件系统中找不到它。即使我在将 Chrome 实例化到 Azure Blob 存储上的挂载文件夹时更改了下载路径，下载后文件也不会放置在那里。还有一个问题是，如何在不手动更改版本号的情况下自动保持 Chrome 浏览器和 ChromeDriver 版本同步。

以下链接显示了有同样问题但没有明确答案的人：

https://forums.databricks.com/questions/19376/if-my-notebook-downloads-a-file-from-a-website-by.html

https://forums.databricks.com/questions/45388/selenium-in-databricks-with-add-experimental-optio.html

当我使用 Selenium Python 进行 Web 自动化时，有没有办法确定文件在 Azure Databricks 中的下载位置？

还有一些人在努力让 Selenium 正常运行： https://forums.databricks.com/questions/14814/selenium-in-databricks.html

不在路径错误中： https://webcache.googleusercontent.com/search? q=cache:NrvVKo4LLdIJ:/sf/ask/4053306071/ -databricks+&cd=5&hl=en&ct=clnk&gl=us

是否有在 Databricks 上使用 Selenium 和管理下载文件的明确指南？如何让 Chrome 浏览器和 ChromeDriver 版本自动保持同步？

python selenium pyspark databricks azure-databricks

kin*_*gry

2021 11-19

6
推荐指数

1
解决办法

1万
查看次数

在 databricks 中加载增量表特定分区的最佳实践是什么？

我想知道加载增量表特定分区的最佳方法是什么？选项 2 是否在过滤之前加载所有表？

选项1 ：

df = spark.read.format("delta").option('basePath','/mnt/raw/mytable/')\
   .load('/mnt/raw/mytable/ingestdate=20210703')

Run Code Online (Sandbox Code Playgroud)

（这里需要basePath选项吗？）

选项2：

df = spark.read.format("delta").load('/mnt/raw/mytable/')
df = df.filter(col('ingestdate')=='20210703')

Run Code Online (Sandbox Code Playgroud)

提前谢谢了！

partitioning apache-spark pyspark azure-databricks delta-lake

Gui*_*abs

2021 07-13

6
推荐指数

1
解决办法

9306
查看次数

在 Databricks 笔记本中显示图像错误

我正在努力创建带有公司徽标的 databricks 笔记本模板。使用下面的代码显示图像会引发错误。

代码：

%md
<img src ='/test/image/MyImage.jpg'>

Run Code Online (Sandbox Code Playgroud)

错误：

HTTP ERROR 403: Invalid or missing CSRF token

Run Code Online (Sandbox Code Playgroud)

请指导我。

databricks azure-databricks azure-data-lake-gen2

ITH*_*Guy

2021 07-22

6
推荐指数

1
解决办法

6695
查看次数

以 Excel 格式保存文件时 Databricks 出错：OSError: [Errno 95] 不支持操作

您好，我正在尝试以 Excel 格式保存数据帧文件。但不断收到此错误 OSError: [Errno 95] 不支持操作我正在尝试使用以下代码：

  filtered_df.to_excel('/dbfs/digital_nurture_abovejune.xlsx',index=False)
  dbutils.fs.cp('dbfs:/digital_nurture_abovejune.xlsx', path + 'output')

Run Code Online (Sandbox Code Playgroud)

错误的片段是：

 OSError                                   Traceback (most recent call last)

  filtered_df.to_excel('/dbfs/digital_nurture_abovejune.xlsx',index=False)
  2 dbutils.fs.cp('dbfs:/digital_nurture_abovejune.xlsx', path + 'output')

/databricks/python/lib/python3.8/site-packages/pandas/core/generic.py in to_excel(self, 
excel_writer, sheet_name, na_rep, float_format, columns, header, index, index_label, startrow, 
startcol, engine, merge_cells, encoding, inf_rep, verbose, freeze_panes, storage_options)
 2187             inf_rep=inf_rep,
 2188         )
 -> 2189         formatter.write(
 2190             excel_writer,
2191             sheet_name=sheet_name,

 /databricks/python/lib/python3.8/site-packages/pandas/io/formats/excel.py in write(self, writer, sheet_name, startrow, startcol, freeze_panes, engine, storage_options)
829             # make sure to close opened file handles
830             if need_save:
 --> 831 …

Run Code Online (Sandbox Code Playgroud)

python excel dataframe databricks azure-databricks

nik*_*kki

lucky-day

6
推荐指数

0
解决办法

5765
查看次数