小编use*_*361的帖子

Groupby相邻行pandas的条件和

我有一个数据框,已按用户和时间排序

 df = pd.DataFrame({'user' : ['A', 'A', 'A', 'B', 'B', 'B','B'],
              'location' : ['house','house','gym','gym','shop','gym','gym'], 
              'duration':[10,5,5,4,10,4,6]})


   duration location user
0        10    house    A
1         5    house    A
2         5      gym    A
3         4      gym    B
4        10     shop    B
5         4      gym    B
6         6      gym    B
Run Code Online (Sandbox Code Playgroud)

我只想在给定用户的相邻行的"位置"字段相同时执行sum().所以它不仅仅是df.groupby(['id','location']).duration.sum().所需的输出如下所示.此外,订单很重要.

   duration location user
        15    house    A
         5      gym    A
         4      gym    B
        10     shop    B
        10      gym    B
Run Code Online (Sandbox Code Playgroud)

谢谢!

python conditional pandas

5
推荐指数
1
解决办法
848
查看次数

将 array<string> 转换为字符串 pyspark 数据帧

我有一个 pyspark 数据框,其中一些列包含字符串数组(一列包含嵌套数组)。因此,我无法将数据帧写入 csv。

这是我正在处理的数据框的示例 -

    +-------+--------------------+---------+
    |ID     |             emailed| clicked
    +-------+--------------------+---------+
    |9000316|[KBR, NRT, AOR]     |[[AOR]]  
    |9000854|[KBR, NRT, LAX]     | Null 
    |9001996|[KBR, JFK]          |[[JFK]] 
    +-------+--------------------+---------+
Run Code Online (Sandbox Code Playgroud)

我想获得以下结构,以保存为 csv。

    +-------+--------------------+---------+
    |ID     |             emailed| clicked
    +-------+--------------------+---------+
    |9000316|KBR, NRT, AOR       | AOR  
    |9000854|KBR, NRT, LAX       | Null 
    |9001996|KBR, JFK            | JFK 
    +-------+--------------------+---------+
Run Code Online (Sandbox Code Playgroud)

我对 pyspark 很陌生。非常感谢您的帮助。谢谢!

csv nested flatten pyspark spark-dataframe

5
推荐指数
1
解决办法
9995
查看次数

熊猫数据框的唯一元素的累积数量

我有一个熊猫数据框

id tag
1  A
1  A
1  B
1  C
1  A
2  B
2  C  
2  B 
Run Code Online (Sandbox Code Playgroud)

我想添加一个列来计算 id 级别的唯一标签的累积数量。更具体地说,我想拥有

id tag count
1  A   1
1  A   1
1  B   2
1  C   3
1  A   3
2  B   1
2  C   2
2  B   2
Run Code Online (Sandbox Code Playgroud)

对于给定的 id,计数不会减少。谢谢你的帮助!

python unique pandas

4
推荐指数
2
解决办法
3545
查看次数

标签 统计

pandas ×2

python ×2

conditional ×1

csv ×1

flatten ×1

nested ×1

pyspark ×1

spark-dataframe ×1

unique ×1