我们typedLit
在用于 Spark 的 Scala API 中有一个函数可以将 Array 或 Map 添加为列值。
import org.apache.spark.sql.functions.typedLit
val df1 = Seq((1, 0), (2, 3)).toDF("a", "b")
df1.withColumn("seq", typedLit(Seq(1,2,3)))
.show(truncate=false)
+---+---+---------+
|a |b |seq |
+---+---+---------+
|1 |0 |[1, 2, 3]|
|2 |3 |[1, 2, 3]|
+---+---+---------+
Run Code Online (Sandbox Code Playgroud)
我在 PySpark 中找不到等价物。我们如何在 PySpark 中创建一个以 Array 作为列值的列?
我试图了解createOrReplaceGlobalTempView和createOrReplaceTempView之间的区别。
在版本2.0中引入了createOrReplaceTempView,在版本2.2中引入了createOrReplaceGlobalTempView。
根据文档,
对于createOrReplaceGlobalTempView:此临时视图的生存期与此Spark应用程序相关。
对于createOrReplaceGlobalTempView:此临时表的生存期与用于创建此DataFrame的SparkSession绑定在一起。
您能否详细说明一下Spark Application和SparkSession的区别。
问候,
内拉杰