Spark 数据集在 Python 中可用吗?

use*_*222 1 apache-spark pyspark

在此,规定:

..您可以在 Scala 或 Python 中创建数据集..

此处声明如下

Python不支持Dataset API

python 中有可用的数据集吗?

Ale*_*lok 5

也许问题是关于类型化 Spark 数据集的。

如果是这样,那么答案是否定的。

提到的 Spark 数据集仅在 Scala 和 Java 中可用。

在 Spark(或 PySpark)的 Python 实现中,您必须在首选 DataFrame 和 RDD 之间进行选择。

参考: RDD、DataFrame、Dataset

2022 年 9 月 26 日更新:关于类型化 Spark 数据集的澄清