Pandas数据框条件均值基于列名称

Question

Pandas数据框条件均值基于列名称

Bra*_*wed 13 python mean dataframe pandas

从数据帧的示例开始,最简单的解释是:

    TimeStamp   382.098     382.461     383.185     383.548
    10:28:00    0.012448    0.012362    0.0124485   0.012362
    10:30:00    0.0124135   0.0123965   0.0124135   0.012431
    10:32:00    0.0551035   0.0551725   0.055931    0.0563105
    10:34:00    0.055586    0.0557245   0.056655    0.0569485
    10:36:00    0.055586    0.055776    0.0568105   0.057362

Run Code Online (Sandbox Code Playgroud)

我希望我的输出是:

    TimeStamp   382         383
    10:28:00    0.012405    0.01240525
    10:30:00    0.012405    0.01242225
    10:32:00    0.05513     0.05612075
    10:34:00    0.05565525  0.05680175
    10:36:00    0.055681    0.05708625

Run Code Online (Sandbox Code Playgroud)

所以,我想查看列名值,如果它们与整数相同,我希望输出col具有每个时间索引值的平均值.

我的想法是使用df.round将列标题舍入为最接近的整数,然后使用.mean()以某种方式对轴= 0应用相同col标题的均值.但是,我在数据帧索引类型上使用round函数时出错.

编辑:基于答案,我用过

df.rename(columns=dict(zip(df.columns[0:], df.columns[0:]\
          .values.astype(float).round().astype(str))),inplace=True)
df = df.groupby(df.columns[0:], axis=1).mean()

Run Code Online (Sandbox Code Playgroud)

它会混淆列名和值,而不是根据col名称给出我的意思......不知道为什么!

Answer 1

cs9*_*s95 11

使用groupby连同第一轴lambda.

df.set_index('TimeStamp', inplace=True)
df.groupby(by=lambda x: int(x.split('.')[0]), axis=1).mean()

                382       383
TimeStamp
10:28:00   0.012405  0.012405
10:30:00   0.012405  0.012422
10:32:00   0.055138  0.056121
10:34:00   0.055655  0.056802
10:36:00   0.055681  0.057086

Run Code Online (Sandbox Code Playgroud)

Answer 2

and*_*ece 6

使用类型转换重命名列,移至TimeStamp索引,然后使用groupby获取列意味着:

df.rename(columns=lambda x: int(float(x)) if x!="TimeStamp" else x, inplace=True)
df.set_index("TimeStamp", inplace=True)

df
                382       382       383       383
TimeStamp                                        
10:28:00   0.012448  0.012362  0.012448  0.012362
10:30:00   0.012414  0.012396  0.012414  0.012431
10:32:00   0.055103  0.055172  0.055931  0.056310
10:34:00   0.055586  0.055725  0.056655  0.056948
10:36:00   0.055586  0.055776  0.056810  0.057362


df.groupby(df.columns, axis=1).mean()

                382       383
TimeStamp                    
10:28:00   0.012405  0.012405
10:30:00   0.012405  0.012422
10:32:00   0.055138  0.056121
10:34:00   0.055655  0.056802
10:36:00   0.055681  0.057086

Run Code Online (Sandbox Code Playgroud)

Answer 3

WeN*_*Ben 5

用np.floor rename和groupby

df.rename(columns=dict(zip(df.columns[1:], np.floor(df.columns[1:].values.astype(float)).astype(str))),inplace=True)
df.set_index('TimeStamp').groupby(level=0,axis=1).mean().reset_index()
Out[171]: 
  TimeStamp     382.0     383.0
0  10:28:00  0.012405  0.012405
1  10:30:00  0.012405  0.012422
2  10:32:00  0.055138  0.056121
3  10:34:00  0.055655  0.056802
4  10:36:00  0.055681  0.057086

Run Code Online (Sandbox Code Playgroud)

@cᴏʟᴅsᴘᴇᴇᴅ我还是喜欢你的解决方案〜:-) (2认同)

归档时间：	8 年，3 月前
查看次数：	505 次
最近记录：	7 年，4 月前