在 Pandas 中使用 Groupby 减去两列

Question

在 Pandas 中使用 Groupby 减去两列

我有一个dataframe并且想减去前一行的两列，前提是前一行具有相同的Name值。如果没有，那么我希望它 yieldNAN并填充-. 我的groupby表达产生了错误，TypeError: 'Series' objects are mutable, thus they cannot be hashed，这是非常模棱两可的。我错过了什么？

import pandas as pd
df = pd.DataFrame(data=[['Person A', 5, 8], ['Person A', 13, 11], ['Person B', 11, 32], ['Person B', 15, 20]], columns=['Names', 'Value', 'Value1'])
df['diff'] = df.groupby('Names').apply(df['Value'].shift(1) - df['Value1'].shift(1)).fillna('-')
print df

Run Code Online (Sandbox Code Playgroud)

期望输出：

      Names  Value  Value1  diff
0  Person A      5       8     -
1  Person A     13      11    -3
2  Person B     11      32     -
3  Person B     15      20   -21

Run Code Online (Sandbox Code Playgroud)

Answer 1

jez*_*ael 6

您可以添加lambda x和更改df['Value']为x['Value']，类似于Value1和 last reset_index：

df['diff'] = df.groupby('Names')
               .apply(lambda x: x['Value'].shift(1) - x['Value1'].shift(1))
               .fillna('-')
               .reset_index(drop=True)
print (df)
      Names  Value  Value1 diff
0  Person A      5       8    -
1  Person A     13      11   -3
2  Person B     11      32    -
3  Person B     15      20  -21

Run Code Online (Sandbox Code Playgroud)

另一个解决方案DataFrameGroupBy.shift：

df1 = df.groupby('Names')['Value','Value1'].shift()
print (df1)
   Value  Value1
0    NaN     NaN
1    5.0     8.0
2    NaN     NaN
3   11.0    32.0
df['diff'] = (df1.Value - df1.Value1).fillna('-')

print (df)
      Names  Value  Value1 diff
0  Person A      5       8    -
1  Person A     13      11   -3
2  Person B     11      32    -
3  Person B     15      20  -21

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年前
查看次数：	5465 次
最近记录：	10 年前