Pandas Pivot_Table:非数字值的行计算百分比

kee*_*mar 5 python pandas

这是数据框"df"中的数据:

Document    Name    Time
SPS2315511  A   1 HOUR
SPS2315512  B   1 - 2 HOUR
SPS2315513  C   2 - 3 HOUR
SPS2315514  C   1 HOUR
SPS2315515  B   1 HOUR
SPS2315516  A   2 - 3 HOUR
SPS2315517  A   1 - 2 HOUR
Run Code Online (Sandbox Code Playgroud)

我使用下面的代码,它给出了数据透视表中计数的摘要,

table = pivot_table(df, values=["Document"],
                    index=["Name"], columns=["Time"],
                    aggfunc=lambda x: len(x),
                    margins=True, dropna=True)
Run Code Online (Sandbox Code Playgroud)

但我想要的是在右键单击数据透视表并选择"显示值为 - >行总计百分比"时的行计算百分比.由于我的文档是非数字值,我无法得到它.

预期结果 :

Count of Document   Column Labels

Name    1 HOUR  1 - 2 HOUR  2 - 3 HOUR  Grand Total
A   33.33%  33.33%  33.33%  100.00%
B   50.00%  50.00%  0.00%   100.00%
C   50.00%  0.00%   50.00%  100.00%
Grand Total 42.86%  28.57%  28.57%  100.00%
Run Code Online (Sandbox Code Playgroud)

任何人都可以帮我找出一个获得这个结果的方法吗?

我试图操纵枢轴数据,这将给我行总计,而不是数据框中的数据,我想要的是"行总数的百分比".而且最重要的是我的所有数据都是非数字值......

Joh*_*hnE 8

@maxymoo注意到的可能重复非常接近一个解决方案,但我会继续把它作为一个答案写出来,因为有一些差异不是很简单.

table = pd.pivot_table(df, values=["Document"],
                       index=["Name"], columns=["Time"], 
                       aggfunc=len, margins=True, 
                       dropna=True, fill_value=0)

       Document                      
Time 1 - 2 HOUR 1 HOUR 2 - 3 HOUR All
Name                                 
A             1      1          1   3
B             1      1          0   2
C             0      1          1   2
All           2      3          2   7
Run Code Online (Sandbox Code Playgroud)

主要的调整是添加,fill_value=0因为你真正想要的是计数值为零,而不是NaN.

那么你基本上可以使用链接到@maxymoo的解决方案,但你需要使用iloc或类似的b/c表格列现在有点复杂(作为数据透视表的多索引结果).

table2 = table.div( table.iloc[:,-1], axis=0 )

       Document                         
Time 1 - 2 HOUR    1 HOUR 2 - 3 HOUR All
Name                                    
A      0.333333  0.333333   0.333333   1
B      0.500000  0.500000   0.000000   1
C      0.000000  0.500000   0.500000   1
All    0.285714  0.428571   0.285714   1
Run Code Online (Sandbox Code Playgroud)

你还有一些小的格式化工作(翻转第一列和第二列并转换为%),但这些是你正在寻找的数字.

顺便说一句,这里没有必要,但你可能想考虑将'Time'转换为有序的分类变量,这将是解决列排序问题的一种方法(我认为),但可能或不值得烦恼依赖你还在做什么用数据.