有没有办法使用databricks-connect在本地执行 Spark 代码?
原因是我想在 CI/CD 管道中执行一些测试,而不需要启动并运行集群。
我正在尝试使用 databrick 笔记本中的模块,但我完全被阻止了。我想执行以下命令或任何类似的命令,以允许我创建实例MyClass
from mypackage.mymodule import MyClass
Run Code Online (Sandbox Code Playgroud)
根据databrick的文档,我在本地开发了一个带有单个模块的python包,如下所示:
mypackage
|- __init__.py
|- setup.py
|- mymodule.py
Run Code Online (Sandbox Code Playgroud)
然后运行python setup.py bdist_wheel获取.whl文件。该目录最终是
mypackage
|- build
|- ... whatever
|- src.egg-info
|- ... whatever
|- dist
|- src-0.1-py3-none-any.whl
|- __init__.py
|- setup.py
|- mymodule.py
Run Code Online (Sandbox Code Playgroud)
从这里,我按照说明将.whl文件上传到工作区。但现在我无法导入MyClass任何笔记本。
我已经尝试过以下所有方法:
.whl带名称和不带名称的文件。.whl其安装到集群中而不是上传。import mypackagedbutils.library.install('dbfs:/path/to/mypackage.whl/')(返回True)然后使用import ....whl,而是在笔记本所在的目录中创建包文件夹。Shared文件夹import differentname这让我发疯。这是一项非常简单的任务,我可以使用普通笔记本轻松完成。
我在 Azure 上使用 DataBricks 作为服务。这是我的集群信息:
我按照命令运行,一切正常。
%sql
Select
*
from db_xxxxx.t_fxxxxxxxxx
limit 10
Run Code Online (Sandbox Code Playgroud)
然后我更新了上表中的一些行。当我再次运行上面的命令时,出现此错误:
Error in SQL statement: SparkException: Job aborted due to stage failure: Task 3 in stage 2823.0 failed 4 times, most recent failure: Lost task 3.3 in stage 2823.0 (TID 158824, 10.11.49.6, executor 14): com.databricks.sql.io.FileReadException: Error while reading file abfss:REDACTED_LOCAL_PART@storxfadev0501.dfs.core.windows.net/xsi-ed-faits/t_fait_xxxxxxxxxxx/_delta_log/00000000000000000022.json. It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by …Run Code Online (Sandbox Code Playgroud) 我正在尝试重命名 azure databricks 中的数据库,但收到以下错误:
输入“ALTER DATABASE inventory”时没有可行的替代方案
下面是代码:
%sql
use inventory;
ALTER DATABASE inventory MODIFY NAME = new_inventory;
Run Code Online (Sandbox Code Playgroud)
请解释这个错误“在输入'ALTER DATABASE inventory时没有可行的替代方案”的含义以及如何解决它
我无法通过门户将 Azure AD 服务主体名称添加到 Azure Databricks 中,但我能够在 Databricks API 端点的帮助下添加我的服务主体。如何为我的服务主体名称创建 PAT 令牌。
我想利用 Spark(它在 Databricks 上运行,我正在使用 PySpark)向 REST API 发送并行请求。现在我可能面临两种情况:
关于如何在节点之间分配请求有什么建议吗?
谢谢!
我看过几篇关于在 Databricks 中使用 Selenium%sh来安装 Chrome 驱动程序和 Chrome 的帖子。这对我来说效果很好,但是当我需要下载文件时我遇到了很多麻烦。该文件会下载,但我在 databricks 的文件系统中找不到它。即使我在将 Chrome 实例化到 Azure Blob 存储上的挂载文件夹时更改了下载路径,下载后文件也不会放置在那里。还有一个问题是,如何在不手动更改版本号的情况下自动保持 Chrome 浏览器和 ChromeDriver 版本同步。
以下链接显示了有同样问题但没有明确答案的人:
https://forums.databricks.com/questions/19376/if-my-notebook-downloads-a-file-from-a-website-by.html
当我使用 Selenium Python 进行 Web 自动化时,有没有办法确定文件在 Azure Databricks 中的下载位置?
还有一些人在努力让 Selenium 正常运行: https://forums.databricks.com/questions/14814/selenium-in-databricks.html
是否有在 Databricks 上使用 Selenium 和管理下载文件的明确指南?如何让 Chrome 浏览器和 ChromeDriver 版本自动保持同步?
我想知道加载增量表特定分区的最佳方法是什么?选项 2 是否在过滤之前加载所有表?
df = spark.read.format("delta").option('basePath','/mnt/raw/mytable/')\
.load('/mnt/raw/mytable/ingestdate=20210703')
Run Code Online (Sandbox Code Playgroud)
(这里需要basePath选项吗?)
df = spark.read.format("delta").load('/mnt/raw/mytable/')
df = df.filter(col('ingestdate')=='20210703')
Run Code Online (Sandbox Code Playgroud)
提前谢谢了 !
partitioning apache-spark pyspark azure-databricks delta-lake
我正在努力创建带有公司徽标的 databricks 笔记本模板。使用下面的代码显示图像会引发错误。
代码:
%md
<img src ='/test/image/MyImage.jpg'>
Run Code Online (Sandbox Code Playgroud)
错误:
HTTP ERROR 403: Invalid or missing CSRF token
Run Code Online (Sandbox Code Playgroud)
请指导我。
您好,我正在尝试以 Excel 格式保存数据帧文件。但不断收到此错误 OSError: [Errno 95] 不支持操作我正在尝试使用以下代码:
filtered_df.to_excel('/dbfs/digital_nurture_abovejune.xlsx',index=False)
dbutils.fs.cp('dbfs:/digital_nurture_abovejune.xlsx', path + 'output')
Run Code Online (Sandbox Code Playgroud)
错误的片段是:
OSError Traceback (most recent call last)
filtered_df.to_excel('/dbfs/digital_nurture_abovejune.xlsx',index=False)
2 dbutils.fs.cp('dbfs:/digital_nurture_abovejune.xlsx', path + 'output')
/databricks/python/lib/python3.8/site-packages/pandas/core/generic.py in to_excel(self,
excel_writer, sheet_name, na_rep, float_format, columns, header, index, index_label, startrow,
startcol, engine, merge_cells, encoding, inf_rep, verbose, freeze_panes, storage_options)
2187 inf_rep=inf_rep,
2188 )
-> 2189 formatter.write(
2190 excel_writer,
2191 sheet_name=sheet_name,
/databricks/python/lib/python3.8/site-packages/pandas/io/formats/excel.py in write(self, writer, sheet_name, startrow, startcol, freeze_panes, engine, storage_options)
829 # make sure to close opened file handles
830 if need_save:
--> 831 …Run Code Online (Sandbox Code Playgroud) azure-databricks ×10
databricks ×8
apache-spark ×3
azure ×3
pyspark ×3
python ×3
dataframe ×1
delta-lake ×1
excel ×1
partitioning ×1
rest ×1
selenium ×1