小编Nik*_*dij的帖子

PySpark/Spark窗口函数第一个/最后一个问题

根据我的理解,Spark中的第一个/最后一个函数将检索每个分区的第一行/最后一行/我无法理解为什么LAST函数提供的结果不正确.

这是我的代码.

AgeWindow = Window.partitionBy('Dept').orderBy('Age')
df1 = df1.withColumn('first(ID)', first('ID').over(AgeWindow))\
        .withColumn('last(ID)', last('ID').over(AgeWindow))           
df1.show()
Run Code Online (Sandbox Code Playgroud)
+---+----------+---+--------+--------------------------+-------------------------+
|Age|      Dept| ID|    Name|first(ID)                 |last(ID)                |
+---+----------+---+--------+--------------------------+-------------------------+
| 38|  medicine|  4|   harry|                         4|                        4|
| 41|  medicine|  5|hermione|                         4|                        5|
| 55|  medicine|  7| gandalf|                         4|                        7|
| 15|technology|  6|  sirius|                         6|                        6|
| 49|technology|  9|     sam|                         6|                        9|
| 88|technology|  1|     sam|                         6|                        2|
| 88|technology|  2|     nik|                         6|                        2|
| 75|       mba|  8|   ginny|                         8|                       11|
| 75|       mba| 10|     sam|                         8|                       11| …
Run Code Online (Sandbox Code Playgroud)

sql window-functions apache-spark apache-spark-sql pyspark

5
推荐指数
1
解决办法
2318
查看次数

如何在笔记本之外使用DataBricks dbutils jar?

DataBricks dbutils 库需要在 eclipse 或任何其他 IDE 中使用。诸如 dbutils.secrets.get 之类的方法无法从 Notebook 外部的 SecretUtil API 中使用。在这种情况下我们可以使用com.databricksjar

apache-spark databricks azure-databricks

4
推荐指数
1
解决办法
4311
查看次数

Spark Local模式和Standalone模式之间的确切区别是什么?

有人可以提及这些因素的区别吗

  • 节点/机器数
  • 记忆
  • 核心数
  • 设定
  • 部署方式
  • 每种模式的优点
  • 什么时候应该使用
  • 可能的例子

另外,如果我在单个笔记本电脑上本地运行spark,那么该模式是本地模式还是独立模式?

deployment bigdata apache-spark sparkcore

0
推荐指数
1
解决办法
1759
查看次数