Python:Pandas - 按组删除第一行

Question

Python:Pandas - 按组删除第一行

我有以下大型数据框(df),如下所示:

    ID     date        PRICE       
1   10001  19920103  14.500    
2   10001  19920106  14.500    
3   10001  19920107  14.500     
4   10002  19920108  15.125     
5   10002  19920109  14.500   
6   10002  19920110  14.500    
7   10003  19920113  14.500 
8   10003  19920114  14.500     
9   10003  19920115  15.000

Run Code Online (Sandbox Code Playgroud)

问题:删除(或删除)每个ID第一行的最有效方法是什么？我要这个:

        ID     date     PRICE       
    2   10001  19920106  14.500    
    3   10001  19920107  14.500     
    5   10002  19920109  14.500   
    6   10002  19920110  14.500    
    8   10003  19920114  14.500     
    9   10003  19920115  15.000

Run Code Online (Sandbox Code Playgroud)

我可以对每个唯一的循环执行循环ID并删除第一行但我相信这不是非常有效.

Answer 1

Jia*_* Li 21

另一行代码是 df.groupby('ID').apply(lambda group: group.iloc[1:, 1:])

Out[100]: 
             date  PRICE
ID                      
10001 2  19920106   14.5
      3  19920107   14.5
10002 5  19920109   14.5
      6  19920110   14.5
10003 8  19920114   14.5
      9  19920115   15.0

Run Code Online (Sandbox Code Playgroud)

为什么我们在`[1:,1:]`中需要两个`1:`？ (10认同)
比第一个答案简单一千倍!谢谢你 (4认同)
第二个1：没有必要。这意味着从第二列开始（因为第一列是 0）直到结束。你可以简单地执行group.iloc[1:]。 (2认同)

Answer 2

unu*_*tbu 15

您可以使用它groupby/transform来准备一个布尔掩码,对于您想要的行,该掩码为True,对于您不想要的行,则为False.一旦有了这样的布尔掩码,就可以使用df.loc[mask]以下方法选择子DataFrame :

import numpy as np
import pandas as pd

df = pd.DataFrame(
    {'ID': [10001, 10001, 10001, 10002, 10002, 10002, 10003, 10003, 10003],
     'PRICE': [14.5, 14.5, 14.5, 15.125, 14.5, 14.5, 14.5, 14.5, 15.0],
     'date': [19920103, 19920106, 19920107, 19920108, 19920109, 19920110,
              19920113, 19920114, 19920115]},
    index = range(1,10)) 

def mask_first(x):
    result = np.ones_like(x)
    result[0] = 0
    return result

mask = df.groupby(['ID'])['ID'].transform(mask_first).astype(bool)
print(df.loc[mask])

Run Code Online (Sandbox Code Playgroud)

产量

      ID  PRICE      date
2  10001   14.5  19920106
3  10001   14.5  19920107
5  10002   14.5  19920109
6  10002   14.5  19920110
8  10003   14.5  19920114
9  10003   15.0  19920115

Run Code Online (Sandbox Code Playgroud)

既然你对效率感兴趣,这里有一个基准:

import timeit
import operator
import numpy as np
import pandas as pd

N = 10000
df = pd.DataFrame(
    {'ID': np.random.randint(100, size=(N,)),
     'PRICE': np.random.random(N),
     'date': np.random.random(N)}) 

def using_mask(df):
    def mask_first(x):
        result = np.ones_like(x)
        result[0] = 0
        return result

    mask = df.groupby(['ID'])['ID'].transform(mask_first).astype(bool)
    return df.loc[mask]

def using_apply(df):
    return df.groupby('ID').apply(lambda group: group.iloc[1:, 1:])

def using_apply_alt(df):
    return df.groupby('ID', group_keys=False).apply(lambda x: x[1:])

timing = dict()
for func in (using_mask, using_apply, using_apply_alt):
    timing[func] = timeit.timeit(
        '{}(df)'.format(func.__name__), 
        'from __main__ import df, {}'.format(func.__name__), number=100)

for func, t in sorted(timing.items(), key=operator.itemgetter(1)):
    print('{:16}: {:.2f}'.format(func.__name__, t))

Run Code Online (Sandbox Code Playgroud)

报告

using_mask      : 0.85
using_apply_alt : 2.04
using_apply     : 3.70

Run Code Online (Sandbox Code Playgroud)

Answer 3

Rri*_*kit 7

旧但仍然经常观看：更快的解决方案是 nth(0) 结合删除重复项：

def using_nth(df):
    to_del = df.groupby('ID',as_index=False).nth(0)
    return pd.concat([df,to_del]).drop_duplicates(keep=False)

Run Code Online (Sandbox Code Playgroud)

在我的系统中，unutbus 设置的时间是：

using_nth       : 0.43
using_apply_alt : 1.93
using_mask      : 2.11
using_apply     : 4.33

Run Code Online (Sandbox Code Playgroud)

谢谢，`.nth()` 太棒了！不过，代码的速度还是快了两倍：“return df.drop(df.groupby('ID',as_index=False).nth(0).index)”（1.49 ms ± 90.2 µs，而不是 3.13 ms ± 11.8微秒）。 (4认同)

Answer 4

see*_*spi 5

我发现的最快的解决方案是生成一个包含组观察数的列，然后使用删除所有观察值value = 0。

df['num_in_group'] = df.groupby('ID').cumcount()
df = df[df['num_in_group'] > 0]

Run Code Online (Sandbox Code Playgroud)

或者

df = df[df.groupby('ID').cumcount() != 0]

Run Code Online (Sandbox Code Playgroud)

Answer 5

jez*_*ael 5

DataFrame.duplicated按列使用ID：

df = df[df.duplicated('ID')]
print (df)
      ID      date  PRICE
2  10001  19920106   14.5
3  10001  19920107   14.5
5  10002  19920109   14.5
6  10002  19920110   14.5
8  10003  19920114   14.5
9  10003  19920115   15.0

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，3 月前
查看次数：	5559 次
最近记录：	10 年，3 月前