如何在 Databricks 的 PySpark 中使用在 Scala 中创建的 DataFrame

iKn*_*ing 2 python scala pyspark databricks

我的 Databricks 笔记本使用 Python。Notebook 中的一些代码是用 Scala 编写的(使用 %scala),其中之一用于创建数据帧。

如果我再次使用Python/PySpark(默认模式),我如何使用/访问在scala模式下创建的这个数据帧?

有可能吗?

谢谢

Rap*_*l K 6

您可以通过 SparkSQL 中的临时表访问用一种语言创建的 DataFrame 和另一种语言。

例如,假设您在 scala 中有一个名为 的 DataFarame scalaDF。您可以创建该视图的临时视图并使其可供 Python 单元访问,例如:

scalaDF.createOrReplaceTempView("my_table")
Run Code Online (Sandbox Code Playgroud)

然后在Python单元中你可以运行

pythonDF = spark.sql("select * from my_table")

pythonDF.show()
Run Code Online (Sandbox Code Playgroud)

在这些语言和 R 之间传递数据帧也是如此。常见的构造是 SparkSQL 表。