小编Ars*_*eny的帖子

使用 Databricks 连接

我想使用我最喜欢的编辑器在本地编辑 Databricks 笔记本,然后使用Databricks Connect在我通常通过 Web 界面访问的 Databricks 集群上远程运行笔记本。

不幸的是,在网上搜索了几天后,我找不到有关 Databricks Connect 的详细文档。

databricks-connect configure按照上面 PyPI 页面上的建议运行 ,但我不确定某些设置是什么。有人可以引导我完成这个过程(比如在网络界面中哪里可以找到这些值)或提供正确文档的链接吗?

databricks-connect configure我知道一些设置应该是什么,但为了完整性和其他人的利益,我将包括运行时出现的所有内容。

Databricks Host
Databricks Token
Cluster ID(例如,0921-001415-jelly628
Org ID(仅限 Azure,请参阅?o=orgIdURL)
Port(是吗spark.databricks.service.port?)

另外,我认为这是我最感兴趣的,我是否需要对笔记本本身进行任何更改,例如定义 SparkContext 或其他内容?如果有的话,用什么配置?

我应该如何运行它?运行后databricks-connect configure,似乎没有发生任何“魔法”。当我运行时jupyter notebook,它仍然在本地运行,并且似乎不知道将其转发到远程集群。

更新: 如果您想考虑更具体的东西,在 Databricks 的 Web 界面中,dbutils是一个预定义的对象。远程运行笔记本时如何引用它?

jupyter-notebook databricks azure-databricks

6
推荐指数
1
解决办法
6541
查看次数

为什么在使用范围连接提示时会出现异常?

我正在尝试使用DataFrame.hint()方法向我的联接添加范围联接提示

我有两个表:minutesevents

分钟表的minute_startminute_end列是自固定时间以来以秒为单位的时间。当然,它们的值是 60 的倍数。

事件表有相似的event_startevent_end列,仅用于事件。事件可以在任何一秒开始和结束。

对于每个事件,我需要找到它重叠的所有分钟。

我正在 Databricks(运行时 5.1,Python 3.5)上尝试这个:

# from pyspark.sql.types import StructType, StructField, IntegerType

# minutes = spark.sparkContext\
#                .parallelize(((0,  60),
#                              (60, 120)))\
#                .toDF(StructType([
#                          StructField('minute_start', IntegerType()),
#                          StructField('minute_end', IntegerType())
#                        ]))

# events = spark.sparkContext\
#               .parallelize(((12, 33),
#                             (0,  120),
#                             (33, 72),
#                             (65, 178)))\
#               .toDF(StructType([
#                         StructField('event_start', IntegerType()),
#                         StructField('event_end', IntegerType()) …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark-sql databricks azure-databricks

5
推荐指数
1
解决办法
1490
查看次数

用 JavaScript 编写更好的 IF 返回语句

我有一个关于 IF 语句以及它如何与数组一起使用的快速问题。

我试图从数组中获取一个元素,但如果索引大于 24,则从索引中减去 24。这是我尝试过的,但我发现它通常有点长。

const Arr = ["Number 0", "Number 1", "Number 2", ...];

let Index = 4;
Arr[Index > 24 ? Index - 24 : Index];
// "Number 4"

Index = 25;
Arr[Index > 24 ? Index - 24 : Index];
// "Number 1" (because 25 - 24 = 1)
Run Code Online (Sandbox Code Playgroud)

I was wondering if it could be done like this or another way shorter than above.

Arr[Index > 24 || Index - 24];
Run Code Online (Sandbox Code Playgroud)

FYI: The index should …

javascript arrays if-statement

1
推荐指数
1
解决办法
37
查看次数