小编MLa*_*Lam的帖子

对组内的 pyspark 数据帧进行排序

我想对"time"每个"id"组内的列进行排序。

数据如下:

id  time  name
132  12   Lucy
132  10   John
132  15   Sam
78   11   Kate
78   7    Julia
78   2    Vivien
245  22   Tom
Run Code Online (Sandbox Code Playgroud)

我想得到这个:

id  time  name
132  10   John
132  12   Lucy
132  15   Sam
78   2    Vivien
78   7    Julia
78   11   Kate
245  22   Tom
Run Code Online (Sandbox Code Playgroud)

我试过

df.orderby(['id','time'])
Run Code Online (Sandbox Code Playgroud)

但我不需要排序"id"

我有两个问题:

  1. "time"我可以在相同的范围内排序"id"吗?如何?
  2. "time"如果我只是排序会比使用orderby()对两列进行排序更有效吗?

apache-spark apache-spark-sql pyspark

8
推荐指数
1
解决办法
7787
查看次数

嵌套列表到嵌套的dict python3

我有一个列表如下:

L = [[0,[1,1.0]],
     [0,[2,0.5]],
     [1,[3,3.0]],
     [2,[1,0.33],
     [2,[4,1.5]]]
Run Code Online (Sandbox Code Playgroud)

我想将它转换为嵌套的dict,如下所示:

D = {0:{1: 1.0,
        2: 0.5},
     1:{3: 3.0},
     2:{1: 0.33,
        4: 1.5}
     }
Run Code Online (Sandbox Code Playgroud)

我不确定如何转换它.有什么建议吗?谢谢!

python dictionary list

2
推荐指数
2
解决办法
482
查看次数