选择列的某些元素并在大文件上重复查找它们的最大值.使用PYTHON

COS*_*STA 3 python pandas

我有一个220万行的大文件.

Value Label
4       1
6       1
2       2
6       2
3       2
5       3
8       3
7       3
1       4
5       4
2       5
4       5 
1       5
Run Code Online (Sandbox Code Playgroud)

我想知道获得以下输出的最快方法,其中'Max'存储每个标签中的最大值

Label   Max
  1      6
  2      6
  3      8
  4      5
  5      4
Run Code Online (Sandbox Code Playgroud)

我在python中使用'for'和'while'循环实现了一个普通的逻辑,但这需要几个小时.我希望大熊猫会有一些东西可以解决这个问题.

EdC*_*ica 5

调用maxgroupby对象:

In [116]:

df.groupby('Label').max()
Out[116]:
       Value
Label       
1          6
2          6
3          8
4          5
5          4
Run Code Online (Sandbox Code Playgroud)

如果Label要从索引中恢复列,请调用reset_index:

In [117]:

df.groupby('Label').max().reset_index()
Out[117]:
   Label  Value
0      1      6
1      2      6
2      3      8
3      4      5
4      5      4
Run Code Online (Sandbox Code Playgroud)