我有一个数据框,已按用户和时间排序
df = pd.DataFrame({'user' : ['A', 'A', 'A', 'B', 'B', 'B','B'],
'location' : ['house','house','gym','gym','shop','gym','gym'],
'duration':[10,5,5,4,10,4,6]})
duration location user
0 10 house A
1 5 house A
2 5 gym A
3 4 gym B
4 10 shop B
5 4 gym B
6 6 gym B
Run Code Online (Sandbox Code Playgroud)
我只想在给定用户的相邻行的"位置"字段相同时执行sum().所以它不仅仅是df.groupby(['id','location']).duration.sum().所需的输出如下所示.此外,订单很重要.
duration location user
15 house A
5 gym A
4 gym B
10 shop B
10 gym B
Run Code Online (Sandbox Code Playgroud)
谢谢!
我有一个 pyspark 数据框,其中一些列包含字符串数组(一列包含嵌套数组)。因此,我无法将数据帧写入 csv。
这是我正在处理的数据框的示例 -
+-------+--------------------+---------+
|ID | emailed| clicked
+-------+--------------------+---------+
|9000316|[KBR, NRT, AOR] |[[AOR]]
|9000854|[KBR, NRT, LAX] | Null
|9001996|[KBR, JFK] |[[JFK]]
+-------+--------------------+---------+
Run Code Online (Sandbox Code Playgroud)
我想获得以下结构,以保存为 csv。
+-------+--------------------+---------+
|ID | emailed| clicked
+-------+--------------------+---------+
|9000316|KBR, NRT, AOR | AOR
|9000854|KBR, NRT, LAX | Null
|9001996|KBR, JFK | JFK
+-------+--------------------+---------+
Run Code Online (Sandbox Code Playgroud)
我对 pyspark 很陌生。非常感谢您的帮助。谢谢!
我有一个熊猫数据框
id tag
1 A
1 A
1 B
1 C
1 A
2 B
2 C
2 B
Run Code Online (Sandbox Code Playgroud)
我想添加一个列来计算 id 级别的唯一标签的累积数量。更具体地说,我想拥有
id tag count
1 A 1
1 A 1
1 B 2
1 C 3
1 A 3
2 B 1
2 C 2
2 B 2
Run Code Online (Sandbox Code Playgroud)
对于给定的 id,计数不会减少。谢谢你的帮助!