熊猫:.groupby().size()和百分比

Question

熊猫:.groupby().size()和百分比

eri*_*fas 9 python bioinformatics pandas

我有一个源自df.groupby().size()操作的DataFrame,如下所示:

Localization                           RNA level      
cytoplasm                              1 Non-expressed     7
                                       2 Very low         13
                                       3 Low               8
                                       4 Medium            6
                                       5 Moderate          8
                                       6 High              2
                                       7 Very high         6
cytoplasm & nucleus                    1 Non-expressed     5
                                       2 Very low          8
                                       3 Low               2
                                       4 Medium           10
                                       5 Moderate         16
                                       6 High              6
                                       7 Very high         5
cytoplasm & nucleus & plasma membrane  1 Non-expressed     6
                                       2 Very low          3
                                       3 Low               3
                                       4 Medium            7
                                       5 Moderate          8
                                       6 High              4
                                       7 Very high         1

Run Code Online (Sandbox Code Playgroud)

我想要做的是计算单独的事件(即最后一列来自.size())作为适用的总出现次数的百分比Localization.

例如:在cytoplasm定位中总共发生50次(7 + 13 + 8 + 6 + 8 + 2 + 6),分别为Non-expressed和Very lowRNA水平产生14和26%.

有这么好的方法吗？我一直在用它认为是一种非常迂回的方式,即为每个人创建一个新的DataFrame Localization并从那里开始工作,但是有很多行和最后必须合并所有生成的DataFrames的问题.我希望至少有一种更聪明的方法!

Answer 1

Gui*_*not 12

这是基于pandas groupby,sum函数的完整示例.基本思想是基于组分组数据'Localization'并在组上应用函数.

import pandas as pd
from StringIO import StringIO
#For Python 3: from io import StringIO

data = \
"""Localization,RNA level,Size
cytoplasm                            ,1 Non-expressed, 7
cytoplasm                            ,2 Very low     ,13
cytoplasm                            ,3 Low          , 8
cytoplasm                            ,4 Medium       , 6
cytoplasm                            ,5 Moderate     , 8
cytoplasm                            ,6 High         , 2
cytoplasm                            ,7 Very high    , 6
cytoplasm & nucleus                  ,1 Non-expressed, 5
cytoplasm & nucleus                  ,2 Very low     , 8
cytoplasm & nucleus                  ,3 Low          , 2
cytoplasm & nucleus                  ,4 Medium       ,10
cytoplasm & nucleus                  ,5 Moderate     ,16
cytoplasm & nucleus                  ,6 High         , 6
cytoplasm & nucleus                  ,7 Very high    , 5
cytoplasm & nucleus & plasma membrane,1 Non-expressed, 6
cytoplasm & nucleus & plasma membrane,2 Very low     , 3
cytoplasm & nucleus & plasma membrane,3 Low          , 3
cytoplasm & nucleus & plasma membrane,4 Medium       , 7
cytoplasm & nucleus & plasma membrane,5 Moderate     , 8
cytoplasm & nucleus & plasma membrane,6 High         , 4
cytoplasm & nucleus & plasma membrane,7 Very high    , 1"""

# Create the dataframe
df = pd.read_csv(StringIO(data))
df['Localization'].str.strip()
df['RNA level'].str.strip()
df['Size'].astype(int)
df['Percent'] = df.groupby('Localization')['Size'].transform(lambda x: x/sum(x))

Run Code Online (Sandbox Code Playgroud)

归档时间：	11 年，9 月前
查看次数：	12289 次
最近记录：	9 年，11 月前