使用Groupby Pandas DataFrame手动计算STD

use*_*649 2 python algorithm pandas

我试图通过提供一种不同的和手动的方式来计算平均值和标准,为这个问题编写解决方案.

按照问题中的描述创建了数据框

a= ["Apple","Banana","Cherry","Apple"]
b= [3,4,7,3]
c= [5,4,1,4]
d= [7,8,3,7]

import pandas as pd
df =  pd.DataFrame(index=range(4), columns=list("ABCD"))

df["A"]=a
df["B"]=b
df["C"]=c
df["D"]=d
Run Code Online (Sandbox Code Playgroud)

然后,我创建了一个没有重复的A列表.然后我通过每次项目分组并计算解决方案来完成这些项目.

import numpy as np

l= list(set(df.A))

df.groupby('A', as_index=False)
listMean=[0]*len(df.C)
listSTD=[0]*len(df.C)

for x in l:
    s= np.mean(df[df['A']==x].C.values)
    z= [index for index, item in enumerate(df['A'].values) if x==item ]
    for i in z:
        listMean[i]=s

for x in l:
    s=  np.std(df[df['A']==x].C.values)
    z= [index for index, item in enumerate(df['A'].values) if x==item ]
    for i in z:
        listSTD[i]=s

df['C']= listMean
df['E']= listSTD

print df
Run Code Online (Sandbox Code Playgroud)

我用describe()"A"分组来计算平均值,std.

print df.groupby('A').describe()
Run Code Online (Sandbox Code Playgroud)

并测试了建议的解决方案:

result = df.groupby(['a'], as_index=False).agg(
                      {'c':['mean','std'],'b':'first', 'd':'first'})
Run Code Online (Sandbox Code Playgroud)

我注意到当我计算std("E")时,我得到了不同的结果.我很好奇,我错过了什么?

unu*_*tbu 5

两种标准偏差(SD):人口SD和样本SD.

人口SD

在此输入图像描述

当值表示您正在研究的整个值的范围时使用.

样本SD

在此输入图像描述

当值仅来自该Universe的样本时使用.

np.std默认情况下计算总体SD,而Pandas默认Series.std计算样本SD.

In [42]: np.std([4,5])
Out[42]: 0.5

In [43]: np.std([4,5], ddof=0)
Out[43]: 0.5

In [44]: np.std([4,5], ddof=1)
Out[44]: 0.70710678118654757

In [45]: x = pd.Series([4,5])

In [46]: x.std()
Out[46]: 0.70710678118654757

In [47]: x.std(ddof=0)
Out[47]: 0.5
Run Code Online (Sandbox Code Playgroud)

ddof代表"自由度",并控制从NSD公式中减去的数字.

上面的公式图片来自这个维基百科页面.在那里,"未校正的样本标准偏差"是I(和其他人)称之为群体SD,"校正样本标准偏差"是样本SD.