我有一个很长的数据表(大约200行乘50列)我需要创建一个代码,可以计算每两行的平均值和表中的每一列,最终输出是平均值的新表值.这在Excel中显然很疯狂!我使用python3,我知道一些类似的问题:这里,这里和这里.但这些都没有帮助,因为我需要一些优雅的代码来处理多个列并生成一个有组织的数据表.顺便说一句,我的原始数据表已经使用pandas导入并被定义为数据帧,但在pandas中找不到一种简单的方法.非常感谢帮助.
表(简称)的一个例子是:
a b c d
2 50 25 26
4 11 38 44
6 33 16 25
8 37 27 25
10 28 48 32
12 47 35 45
14 8 16 7
16 12 16 30
18 22 39 29
20 9 15 47
Run Code Online (Sandbox Code Playgroud)
预期平均数表:
a b c d
3 30.5 31.5 35
7 35 21.5 25
11 37.5 41.5 38.5
15 10 16 18.5
19 15.5 27 38
Run Code Online (Sandbox Code Playgroud) 有没有办法做一个不依赖于 pd.groupby 的通用的、高性能的 groupby 操作?
pd.DataFrame([[1, '2020-02-01', 'a'], [1, '2020-02-10', 'b'], [1, '2020-02-17', 'c'], [2, '2020-02-02', 'd'], [2, '2020-03-06', 'b'], [2, '2020-04-17', 'c']], columns=['id', 'begin_date', 'status'])`
Run Code Online (Sandbox Code Playgroud)
id begin_date status
0 1 2020-02-01 a
1 1 2020-02-10 b
2 1 2020-02-17 c
3 2 2020-02-02 d
4 2 2020-03-06 b
Run Code Online (Sandbox Code Playgroud)
id status count uniquecount
0 1 a 1 1
1 1 b 1 1
2 1 c 1 1
3 2 b 1 1
4 2 c 1 …Run Code Online (Sandbox Code Playgroud)