我想使用我最喜欢的编辑器在本地编辑 Databricks 笔记本,然后使用Databricks Connect在我通常通过 Web 界面访问的 Databricks 集群上远程运行笔记本。
不幸的是,在网上搜索了几天后,我找不到有关 Databricks Connect 的详细文档。
我databricks-connect configure
按照上面 PyPI 页面上的建议运行 ,但我不确定某些设置是什么。有人可以引导我完成这个过程(比如在网络界面中哪里可以找到这些值)或提供正确文档的链接吗?
databricks-connect configure
我知道一些设置应该是什么,但为了完整性和其他人的利益,我将包括运行时出现的所有内容。
Databricks Host
Databricks Token
Cluster ID
(例如,0921-001415-jelly628
)
Org ID
(仅限 Azure,请参阅?o=orgId
URL)
Port
(是吗spark.databricks.service.port
?)
另外,我认为这是我最感兴趣的,我是否需要对笔记本本身进行任何更改,例如定义 SparkContext 或其他内容?如果有的话,用什么配置?
我应该如何运行它?运行后databricks-connect configure
,似乎没有发生任何“魔法”。当我运行时jupyter notebook
,它仍然在本地运行,并且似乎不知道将其转发到远程集群。
更新:
如果您想考虑更具体的东西,在 Databricks 的 Web 界面中,dbutils
是一个预定义的对象。远程运行笔记本时如何引用它?
我正在尝试使用DataFrame.hint()方法向我的联接添加范围联接提示。
我有两个表:minutes
和events
。
分钟表的minute_start
和minute_end
列是自固定时间以来以秒为单位的时间。当然,它们的值是 60 的倍数。
事件表有相似的event_start
和event_end
列,仅用于事件。事件可以在任何一秒开始和结束。
对于每个事件,我需要找到它重叠的所有分钟。
我正在 Databricks(运行时 5.1,Python 3.5)上尝试这个:
# from pyspark.sql.types import StructType, StructField, IntegerType
# minutes = spark.sparkContext\
# .parallelize(((0, 60),
# (60, 120)))\
# .toDF(StructType([
# StructField('minute_start', IntegerType()),
# StructField('minute_end', IntegerType())
# ]))
# events = spark.sparkContext\
# .parallelize(((12, 33),
# (0, 120),
# (33, 72),
# (65, 178)))\
# .toDF(StructType([
# StructField('event_start', IntegerType()),
# StructField('event_end', IntegerType()) …
Run Code Online (Sandbox Code Playgroud) 我有一个关于 IF 语句以及它如何与数组一起使用的快速问题。
我试图从数组中获取一个元素,但如果索引大于 24,则从索引中减去 24。这是我尝试过的,但我发现它通常有点长。
const Arr = ["Number 0", "Number 1", "Number 2", ...];
let Index = 4;
Arr[Index > 24 ? Index - 24 : Index];
// "Number 4"
Index = 25;
Arr[Index > 24 ? Index - 24 : Index];
// "Number 1" (because 25 - 24 = 1)
Run Code Online (Sandbox Code Playgroud)
I was wondering if it could be done like this or another way shorter than above.
Arr[Index > 24 || Index - 24];
Run Code Online (Sandbox Code Playgroud)
FYI: The index should …
databricks ×2
apache-spark ×1
arrays ×1
if-statement ×1
javascript ×1
pyspark-sql ×1
python ×1