小编Sam*_*ain的帖子

除了collect()之外,还有什么方法可以从Pyspark中的列中获取最大值吗?

我想从 pyspark 数据框中的日期类型列获取最大值。目前,我正在使用这样的命令:

df.select('col1').distinct().orderBy('col1').collect()[0]['col1']
Run Code Online (Sandbox Code Playgroud)

"col1"是日期时间类型列。它工作正常,但我想避免在这里使用collect(),因为我怀疑我的驱动程序可能会溢出。

任何意见将是有益的。

apache-spark pyspark

4
推荐指数
1
解决办法
1万
查看次数

如何使用笔记本中的某些命令在数据块集群上安装库?

实际上我想在我的 Azure 数据块集群上安装一个库,但我不能使用 UI 方法。这是因为每次我的集群发生变化和过渡时,我都无法使用 UI 向其中添加库。是否有任何用于执行此操作的 databricks 实用程序命令?

databricks azure-databricks

3
推荐指数
2
解决办法
8618
查看次数