War*_*ren 7 python dataframe pandas
我有一个带有可分为不同组的列的DataFrame。我需要返回一个df,其中条目是原始值减去组均值。
我通过使用groupby进行了以下操作,它给了我分组的意思。
base = datetime.today().date()
date_list = [base - timedelta(days=x) for x in range(0, 10)]
df = pd.DataFrame(data=np.random.randint(1, 100, (10, 8)), index=date_list, columns=['a1', 'a2', 'b1', 'a3', 'b2', 'c1' , 'c2', 'b3'])
xx = df.loc[[datetime(2016, 5, 18).date()]]
xx.index = ['group']
xx.a1 = 1
xx.a2 = 1
xx.a3 = 1
xx.b3 = 2
xx.b2 = 2
xx.b1 = 2
xx.c1 = 3
xx.c2 = 3
df = df.append(xx)
dft = df.T
dft.groupby(['group']).mean().T
Run Code Online (Sandbox Code Playgroud)
更新20/05/16:
在unutbu的回答的帮助下,我也提出了以下解决方案:
df.T.groupby(group, axis=0).apply(lambda x: x - np.mean(x)).T
Run Code Online (Sandbox Code Playgroud)
如果您使用该transform方法,例如
means = df.groupby(group, axis=1).transform('mean')
Run Code Online (Sandbox Code Playgroud)
然后transform将与形状相同的DataFrame df。这使得它更容易减means的df。
您也可以传递一个序列,例如group=[1,1,1,2,2,3,3]to df.groupby而不是传递一个列名。df.groupby(group, axis=1)将根据序列值对列进行分组。因此,例如,要根据每个列名称的非数字部分进行分组,可以使用:
import numpy as np
import datetime as DT
np.random.seed(2016)
base = DT.date.today()
date_list = [base - DT.timedelta(days=x) for x in range(0, 10)]
df = pd.DataFrame(data=np.random.randint(1, 100, (10, 8)),
index=date_list,
columns=['a1', 'a2', 'b1', 'a3', 'b2', 'c1' , 'c2', 'b3'])
group = df.columns.str.extract(r'(\D+)', expand=False)
means = df.groupby(group, axis=1).transform('mean')
result = df - means
print(result)
Run Code Online (Sandbox Code Playgroud)
产生
a1 a2 b1 a3 b2 c1 c2 b3
2016-05-18 29 29 53 29 53 23 23 53
2016-05-17 55 55 32 55 32 92 92 32
2016-05-16 59 59 53 59 53 50 50 53
2016-05-15 46 46 30 46 30 55 55 30
2016-05-14 56 56 28 56 28 28 28 28
2016-05-13 34 34 36 34 36 70 70 36
2016-05-12 39 39 64 39 64 48 48 64
2016-05-11 45 45 59 45 59 57 57 59
2016-05-10 55 55 30 55 30 37 37 30
2016-05-09 61 61 59 61 59 59 59 59
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2144 次 |
| 最近记录: |