基于元组的pandas数据框子集

Question

基于元组的pandas数据框子集

Har*_*pta 2 python indexing dataframe python-3.x pandas

我有一个这样的数据集

Firstnames = ['AA','BB','CC','AA','CC']
Lastnames = ['P', 'Q', 'R', 'P', 'R']
values = [10, 13, 3, 22, 45]

df = pd.DataFrame(data = list(zip(Firstnames,Lastnames,values)), \
                  columns=['Firstnames','Lastnames','values'])
df

    Firstnames  Lastnames   values
0   AA          P           10
1   BB          Q           13
2   CC          R           3
3   AA          P           22
4   CC          R           45

Run Code Online (Sandbox Code Playgroud)

我有一个像这样的元组数组

lst = array([('AA', 'P'), ('BB', 'Q')])

Run Code Online (Sandbox Code Playgroud)

我想对df进行子集化，这样Firstname == 'AA' & Lastnames == 'P'或Firstname == 'BB' & Lastnames == 'Q'

我可以手动执行此操作，但是我的数组非常大，我想以编程方式执行此操作

我的预期输出将是

Firstnames  Lastnames   values
AA          P           10
AA          P           22
BB          Q           13

Run Code Online (Sandbox Code Playgroud)

Answer 1

raf*_*elc 7

`agg`+`isin`

由于元组是可散列的，您可以使用聚合值isin并将其与您的. 直接使用和列表而不是帮助。lastlstnp.array

>>> lst = [('AA', 'P'), ('BB', 'Q')] >>> mask = df[['Firstnames', 'Lastnames']].agg(tuple, 1).isin(lst) >>> df[mask] Firstnames Lastnames values 0 AA P 10 1 BB Q 13 3 AA P 22
Run Code Online (Sandbox Code Playgroud)
如果你愿意，你可以sort_values通过名字

>>> df[mask].sort_values(by=['Firstnames', 'Lastnames']) Firstnames Lastnames values 0 AA P 10 3 AA P 22 1 BB Q 13
Run Code Online (Sandbox Code Playgroud)

pd.concat

您还可以使用列表理解和pd.concat较小的lsts

>>> pd.concat([df[df.Firstnames.eq(a) & df.Lastnames.eq(b)] for a,b in lst]) Firstnames Lastnames values 0 AA P 10 3 AA P 22 1 BB Q 13
Run Code Online (Sandbox Code Playgroud)

时间：

小lst，大df

df = pd.concat([df]*10000).reset_index(drop=True) %timeit mask = df[['Firstnames', 'Lastnames']].agg(tuple, 1).isin(lst); df[mask].sort_values(by=['Firstnames', 'Lastnames']) 942 ms ± 71.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) %timeit pd.concat([df[df.Firstnames.eq(a) & df.Lastnames.eq(b)] for a,b in lst]) 16.2 ms ± 355 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
Run Code Online (Sandbox Code Playgroud)
对于大lst和小df

c = list(map(''.join, itertools.product(string.ascii_uppercase, string.ascii_uppercase))) lst = [(a,b) for a,b in zip(c, list(string.ascii_uppercase)*26)] df = pd.DataFrame({'Firstnames': c, 'Lastnames': list(string.ascii_uppercase)*26, 'values': 10}) %timeit mask = df[['Firstnames', 'Lastnames']].agg(tuple, 1).isin(lst); df[mask].sort_values(by=['Firstnames', 'Lastnames']) 15.1 ms ± 301 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) %timeit pd.concat([df[df.Firstnames.eq(a) & df.Lastnames.eq(b)] for a,b in lst]) 781 ms ± 33.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，1 月前
查看次数：	1295 次
最近记录：	7 年，1 月前

基于元组的pandas数据框子集

agg+isin

pd.concat

`agg`+`isin`

`pd.concat`