小编dan*_*oid的帖子

PySpark布尔数据透视

我有一些数据模仿以下结构:

rdd = sc.parallelize(
    [
        (0,1), 
        (0,5), 
        (0,3), 
        (1,2), 
        (1,3), 
        (2,6)
    ]
)

df_data = sqlContext.createDataFrame(rdd, ["group","value"])

df_data.show()

+-----+-----+
|group|value|
+-----+-----+
|    0|    1|
|    0|    5|
|    0|    3|
|    1|    2|
|    1|    3|
|    2|    6|
+-----+-----+
Run Code Online (Sandbox Code Playgroud)

我想做的是按组透视此数据,以显示“值”值的存在,如下所示:

+-----+-------+-------+-------+-------+-------+
|group|value_1|value_2|value_3|value_5|value_6|
+-----+-------+-------+-------+-------+-------+
|    0|   true|  false|   true|   true|  false|
|    1|  false|   true|   true|  false|  false|
|    2|  false|  false|  false|  false|   true|
+-----+-------+-------+-------+-------+-------+
Run Code Online (Sandbox Code Playgroud)

我有什么办法可以用PySpark做到这一点吗?

我尝试了groupby / pivot / agg的组合,但未成功。

python apache-spark pyspark

4
推荐指数
2
解决办法
504
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1