小编dan*_*oid的帖子

PySpark布尔数据透视

我有一些数据模仿以下结构：

rdd = sc.parallelize(
    [
        (0,1), 
        (0,5), 
        (0,3), 
        (1,2), 
        (1,3), 
        (2,6)
    ]
)

df_data = sqlContext.createDataFrame(rdd, ["group","value"])

df_data.show()

+-----+-----+
|group|value|
+-----+-----+
|    0|    1|
|    0|    5|
|    0|    3|
|    1|    2|
|    1|    3|
|    2|    6|
+-----+-----+

Run Code Online (Sandbox Code Playgroud)

我想做的是按组透视此数据，以显示“值”值的存在，如下所示：

+-----+-------+-------+-------+-------+-------+
|group|value_1|value_2|value_3|value_5|value_6|
+-----+-------+-------+-------+-------+-------+
|    0|   true|  false|   true|   true|  false|
|    1|  false|   true|   true|  false|  false|
|    2|  false|  false|  false|  false|   true|
+-----+-------+-------+-------+-------+-------+

Run Code Online (Sandbox Code Playgroud)

我有什么办法可以用PySpark做到这一点吗？

我尝试了groupby / pivot / agg的组合，但未成功。

python apache-spark pyspark

dan*_*oid

lucky-day

4
推荐指数

2
解决办法

504
查看次数