如何将pyspark数据帧子集为4个数据帧？

Question

如何将pyspark数据帧子集为4个数据帧？

我有一个包含超过一百万条记录的 pyspark 数据框，我需要将其划分为 4 个数据帧。像第一个 2.50 万条记录到一个数据帧和下一个 2.50 万条记录到下一个数据帧。我怎样才能做到这一点？

Answer 1

我认为最好的方法是通过索引列来做到这一点。如果您没有，最简单的方法是使用 rdd 在 rdd 上创建一个.zipWithIndex()

例子：

data = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
rdd = spark.sparkContext.parallelize(data).zipWithIndex()

Run Code Online (Sandbox Code Playgroud)

然后让我们创建一个 DF：

from pyspark.sql.types import *
from pyspark.sql.functions import *
df = spark.createDataFrame(rdd, ['letters', 'id'])

Run Code Online (Sandbox Code Playgroud)

计算尺寸：

size_of_df = df.count()/4

Run Code Online (Sandbox Code Playgroud)

并创建 df 的部分：

df_part0 = df.where(col('id') < size_of_df) 
df_part1 = df.where((col('id') > size_of_df) & 
                    (col('id') <= 2*size_of_df))
df_part2 = df.where((col('id') > 2*size_of_df) & 
                    (col('id') <= 3*size_of_df))
df_part3 = df.where((col('id') > 3*size_of_df) & 
                    (col('id') <= 4*size_of_df))

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，4 月前
查看次数：	8953 次
最近记录：	8 年，4 月前