小编Ars*_*eny的帖子

使用 Databricks 连接

我想使用我最喜欢的编辑器在本地编辑 Databricks 笔记本，然后使用Databricks Connect在我通常通过 Web 界面访问的 Databricks 集群上远程运行笔记本。

不幸的是，在网上搜索了几天后，我找不到有关 Databricks Connect 的详细文档。

我databricks-connect configure按照上面 PyPI 页面上的建议运行，但我不确定某些设置是什么。有人可以引导我完成这个过程（比如在网络界面中哪里可以找到这些值）或提供正确文档的链接吗？

databricks-connect configure我知道一些设置应该是什么，但为了完整性和其他人的利益，我将包括运行时出现的所有内容。

Databricks Host
Databricks Token
Cluster ID（例如，0921-001415-jelly628）
Org ID（仅限 Azure，请参阅?o=orgIdURL）
Port（是吗spark.databricks.service.port？）

另外，我认为这是我最感兴趣的，我是否需要对笔记本本身进行任何更改，例如定义 SparkContext 或其他内容？如果有的话，用什么配置？

我应该如何运行它？运行后databricks-connect configure，似乎没有发生任何“魔法”。当我运行时jupyter notebook，它仍然在本地运行，并且似乎不知道将其转发到远程集群。

更新： 如果您想考虑更具体的东西，在 Databricks 的 Web 界面中，dbutils是一个预定义的对象。远程运行笔记本时如何引用它？

jupyter-notebook databricks azure-databricks

Ars*_*eny

2019 03-06

6
推荐指数

1
解决办法

6541
查看次数

为什么在使用范围连接提示时会出现异常？

我正在尝试使用DataFrame.hint()方法向我的联接添加范围联接提示。

我有两个表：minutes和events。

分钟表的minute_start和minute_end列是自固定时间以来以秒为单位的时间。当然，它们的值是 60 的倍数。

事件表有相似的event_start和event_end列，仅用于事件。事件可以在任何一秒开始和结束。

对于每个事件，我需要找到它重叠的所有分钟。

我正在 Databricks（运行时 5.1，Python 3.5）上尝试这个：

# from pyspark.sql.types import StructType, StructField, IntegerType

# minutes = spark.sparkContext\
#                .parallelize(((0,  60),
#                              (60, 120)))\
#                .toDF(StructType([
#                          StructField('minute_start', IntegerType()),
#                          StructField('minute_end', IntegerType())
#                        ]))

# events = spark.sparkContext\
#               .parallelize(((12, 33),
#                             (0,  120),
#                             (33, 72),
#                             (65, 178)))\
#               .toDF(StructType([
#                         StructField('event_start', IntegerType()),
#                         StructField('event_end', IntegerType()) …

Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark-sql databricks azure-databricks

Ars*_*eny

2019 12-13

5
推荐指数

1
解决办法

1490
查看次数

用 JavaScript 编写更好的 IF 返回语句

我有一个关于 IF 语句以及它如何与数组一起使用的快速问题。

我试图从数组中获取一个元素，但如果索引大于 24，则从索引中减去 24。这是我尝试过的，但我发现它通常有点长。

const Arr = ["Number 0", "Number 1", "Number 2", ...];

let Index = 4;
Arr[Index > 24 ? Index - 24 : Index];
// "Number 4"

Index = 25;
Arr[Index > 24 ? Index - 24 : Index];
// "Number 1" (because 25 - 24 = 1)

Run Code Online (Sandbox Code Playgroud)

I was wondering if it could be done like this or another way shorter than above.