如何在Spark(Python)中订购我的Row对象的字段

rye*_*rye 12 python apache-spark apache-spark-sql pyspark pyspark-sql

我在Spark中创建Row对象.我不希望我的字段按字母顺序排序.但是,如果我执行以下操作,则按字母顺序排序.

row = Row(foo=1, bar=2)

Run Code Online (Sandbox Code Playgroud)

然后它创建一个如下所示的对象:

Row(bar=2, foo=1)

Run Code Online (Sandbox Code Playgroud)

当我然后在这个对象上创建一个数据帧时,列顺序将是第一个,第二个是foo,当我更喜欢用它来反过来时.

我知道我可以使用"_1"和"_2"(分别用于"foo"和"bar"),然后分配一个模式(带有适当的"foo"和"bar"名称).但是有什么方法可以阻止Row对象对它们进行排序吗？

但是有什么方法可以阻止Row对象对它们进行排序吗？

没有.如果提供的kwargs参数将按名称排序.确定性行为需要排序,因为3.6之前的Python不保留关键字参数的顺序.

只需使用普通元组:

rdd = sc.parallelize([(1, 2)])

Run Code Online (Sandbox Code Playgroud)

并将模式作为参数传递给 RDD.toDF

rdd.toDF(["foo", "bar"])

Run Code Online (Sandbox Code Playgroud)

或者DataFrame.toDF:

from pyspark.sql.types import *

spark.createDataFrame(rdd, ["foo", "bar"])

# With full schema
schema = StructType([
    StructField("foo", IntegerType(), False),
    StructField("bar", IntegerType(), False)])

spark.createDataFrame(rdd, schema)

Run Code Online (Sandbox Code Playgroud)

您还可以使用createDataFrame:

from collections import namedtuple

FooBar = namedtuple("FooBar", ["foo", "bar"])
spark.createDataFrame([FooBar(foo=1, bar=2)])

Run Code Online (Sandbox Code Playgroud)

最后,您可以按namedtuples以下方式对列进

sc.parallelize([Row(foo=1, bar=2)]).toDF().select("foo", "bar")

Run Code Online (Sandbox Code Playgroud)

无论如何最好这样做.您可以节省架构推断所需的时间并避免某些类别的错误. (3认同)
使用元组并提供架构. (2认同)

归档时间：	10 年前
查看次数：	7314 次
最近记录：	6 年，10 月前

'PipelinedRDD'对象在PySpark中没有属性'toDF' 45

更多相关链接

如何在python中添加当前时间的小时数 133

Python:独立于平台的修改PATH环境变量的方法 78

Celery - 获取当前任务的任务ID 71

将json字符串转换为python对象 46

gevent无法在Ubuntu上正确安装 42

Spark数据帧将列值获取为字符串变量 14

Spark - 使用Firehose从分区文件夹中读取JSON 8

在 Pyspark 中将布尔值转换为字符串时使用 when 和 else 4

PySpark - 从UDF获取行的索引 1

如何将 Spark 数据框中的所有列更改为双精度类型 1

URI,URL和URN有什么区别？ 4217

如何异步上传文件？ 2841

检测未定义的对象属性 2742

如何在JavaScript中将数字格式化为美元货币字符串？ 1711

重写System.Object.GetHashCode的最佳算法是什么？ 1389

UNION和UNION ALL有什么区别？ 1350

JavaScript是一种传递引用还是按值传递的语言？ 1311

在Python中创建一个包含列表推导的字典 1216

如何在Vim中有效地处理多个文件？ 1074

我必须在何处以及为何要使用"模板"和"typename"关键字？ 1061