小编hyp*_*c54的帖子

Pyspark 1.6 - 使用多个聚合旋转后别名列

我正在尝试对Pyspark数据帧上的值进行旋转后得到的列的别名.这里的问题是我没有正确设置我在别名调用中放置的列名.

一个具体的例子:

从此数据框开始:

import pyspark.sql.functions as func

df = sc.parallelize([
    (217498, 100000001, 'A'), (217498, 100000025, 'A'), (217498, 100000124, 'A'),
    (217498, 100000152, 'B'), (217498, 100000165, 'C'), (217498, 100000177, 'C'),
    (217498, 100000182, 'A'), (217498, 100000197, 'B'), (217498, 100000210, 'B'),
    (854123, 100000005, 'A'), (854123, 100000007, 'A')
]).toDF(["user_id", "timestamp", "actions"])

Run Code Online (Sandbox Code Playgroud)

这使

+-------+--------------------+------------+
|user_id|     timestamp      |  actions   |
+-------+--------------------+------------+
| 217498|           100000001|    'A'     |
| 217498|           100000025|    'A'     |
| 217498|           100000124|    'A'     |
| 217498|           100000152|    'B'     |
| 217498|           100000165|    'C'     |
| …

Run Code Online (Sandbox Code Playgroud)

pivot python-2.7 apache-spark pyspark pyspark-sql

hyp*_*c54

2017 05-23

6
推荐指数

1
解决办法

847
查看次数

Pyspark:自定义窗口功能

目前我正在试图提取系列连续出现在PySpark数据帧和订单/对他们进行排名,如下图所示(为方便起见,我已经下令初始数据框user_id和timestamp):

df_ini

Run Code Online (Sandbox Code Playgroud)

+-------+--------------------+------------+
|user_id|     timestamp      |  actions   |
+-------+--------------------+------------+
| 217498|           100000001|    'A'     |
| 217498|           100000025|    'A'     |
| 217498|           100000124|    'A'     |
| 217498|           100000152|    'B'     |
| 217498|           100000165|    'C'     |
| 217498|           100000177|    'C'     |
| 217498|           100000182|    'A'     |
| 217498|           100000197|    'B'     |
| 217498|           100000210|    'B'     |
| 854123|           100000005|    'A'     |
| 854123|           100000007|    'A'     |
| etc.

Run Code Online (Sandbox Code Playgroud)

至 :

expected df_transformed

Run Code Online (Sandbox Code Playgroud)

+-------+------------+------------+------------+
|user_id|  actions   | nb_of_occ  | …

Run Code Online (Sandbox Code Playgroud)

window-functions apache-spark apache-spark-sql pyspark

hyp*_*c54

2018 09-28

4
推荐指数

1
解决办法

4853
查看次数

标签统计

apache-spark ×2

pyspark ×2

apache-spark-sql ×1

pivot ×1

pyspark-sql ×1

python-2.7 ×1

window-functions ×1

Pyspark 1.6 - 使用多个聚合旋转后别名列

Pyspark:自定义窗口功能

标签 统计

小编hyp_c54的帖子

标签统计