如何在 pyspark 中获得确定性随机排序?

Isa*_*aac 5 pyspark

我想随机排序一个数据帧,但以一种确定性的方式。我认为这样做的方法是使用orderBy种子rand函数。但是,我发现这在不同的机器上是不确定的。例如,考虑以下代码:

from pyspark.sql import types as T, functions as F
df = spark.createDataFrame(range(10), T.IntegerType())
df = df.orderBy(F.rand(seed=123))
print(df.show())
Run Code Online (Sandbox Code Playgroud)

当我在本地机器上运行它时,它会打印

+-----+
|value|
+-----+
|    3|
|    4|
|    9|
|    7|
|    8|
|    0|
|    5|
|    6|
|    2|
|    1|
+-----+
Run Code Online (Sandbox Code Playgroud)

但在 EC2 实例上,它打印

+-----+
|value|
+-----+
|    9|
|    5|
|    6|
|    7|
|    0|
|    1|
|    4|
|    8|
|    3|
|    2|
+-----+
Run Code Online (Sandbox Code Playgroud)

即使在不同的机器上运行,如何获得确定性的随机排序?

我的 pyspark 版本是 2.4.1

编辑:顺便说一下,我要补充一点,只是在做df.select(F.rand(seed=123)).show()生产跨越两台机器相同的输出,所以这是专门用的组合存在问题orderByrand

Jes*_*ano 5

感谢您从您的编辑中提供更多信息!结果证明这是一个非常重要的线索。

问题

这里的问题是,你是一个伪随机生成的列连接到一个已随机排序的数据集,以及现有的随机性是不确定的,所以安装随机性的另一个来源,确定性于事无补。

您可以通过重新措辞来验证这一点 orderBy电话例如:

df.withColumn('order', F.rand(seed=123)).orderBy(F.col('order').asc())
Run Code Online (Sandbox Code Playgroud)

如果我是对的,您将在两台机器上看到相同的随机值,但它们将附加到不同的行:随机值附加到行的顺序是随机的!

解决方案

如果这是真的,那么解决方案应该非常简单:在“真实”值上应用确定性的、非随机的排序,然后在顶部应用随机(但仍然是确定性的)顺序。

df.orderBy(F.col('value').asc()).withColumn('order', F.rand(seed=123)).orderBy(F.col('order').asc())
Run Code Online (Sandbox Code Playgroud)

应该在两台机器上产生相似的输出。我的结果:

+-----+-------------------+
|value|              order|
+-----+-------------------+
|    4|0.13617504799810343|
|    5|0.13778573503201175|
|    6|0.15367835411103337|
|    9|0.43774287147238644|
|    0| 0.5029534413816527|
|    1| 0.5230701153994686|
|    7|  0.572063607751534|
|    8| 0.7689696831405166|
|    3|   0.82540915099773|
|    2| 0.8535692890157796|
+-----+-------------------+
Run Code Online (Sandbox Code Playgroud)