pandas选择行范围

Dst*_*to4 7 python conditional-statements pandas

我有一个快速的问题.我创建了一个具有许多特征的数据框.我想创建一个新列,选择两个特定行(将作为输入)之间的所有行.

假设数据帧如下:

data = {'currency': ['Euro', 'Euro', 'Euro', 'Dollar', 'Dollar', 'Yen',
                     'Yen', 'Yen', 'Pound', 'Pound', 'Pound, 'Pesos',
                     'Pesos'], 
    'cost': [34, 67, 32, 29, 48, 123, 23, 45, 78, 86, 23, 45, 67]}
df = pd.DataFrame(data, columns = ['currency', 'cost'])
df
Run Code Online (Sandbox Code Playgroud)

df表

我想添加一个新列,在满足条件时分配1.在我的情况下,条件是两种特定货币之间的所有行.例如,假设我想要"美元"和"英镑"之间的所有货币.我的猜测是我必须创建一个掩码并将其用作条件,即选择第一个'Dollar'行和最后'Pound'行(即行3-10)之间的所有行.

我在创建该掩码时遇到问题,因为按字母顺序选择货币:

mask = (df['currency'] >= 'Dollar') & (df['currency'] <= 'Pound')
Run Code Online (Sandbox Code Playgroud)

上面创建了一个新的列,其中包含所有货币的T,除了'Yen'.我可以看出上面为什么会失败,但却无法想到一种做我想做的事情.

注意:相同的货币名称将成组,例如'Pounds'不能在4-5行和8-10行.

提前致谢

jez*_*ael 3

通用解决方案也适用于重复索引:

a = df['currency'].eq('Dollar').cumsum()
b = df['currency'].eq('Pound').iloc[::-1].cumsum()
df['new'] = a.mul(b).clip_upper(1)
Run Code Online (Sandbox Code Playgroud)

唯一索引的替代工​​作:

a = df['currency'].eq('Dollar').idxmax()
b = df['currency'].eq('Pound').iloc[::-1].idxmax()
df['new'] = 0
df.loc[a:b, 'new'] = 1

print (df)
   currency  cost  new
0      Euro    34    0
1      Euro    67    0
2      Euro    32    0
3    Dollar    29    1
4    Dollar    48    1
5       Yen   123    1
6       Yen    23    1
7       Yen    45    1
8     Pound    78    1
9     Pound    86    1
10    Pound    23    1
11    Pesos    45    0
12    Pesos    67    0
Run Code Online (Sandbox Code Playgroud)

解释:

  1. 通过Series.eq相同的内容进行比较==与第一个
  2. 得到cumsum
  3. 对于第二个条件反向掩码[::-1]
  4. 多个一起并mul替换非01byclip_upper

第二个解决方案用于idxmax第一个索引值并由1以下设置loc