小编use*_*791的帖子

有效地将大型Pandas数据帧写入磁盘

我试图找到使用Python/Pandas有效地在磁盘上写入大数据帧(250MB +)的最佳方法.我已经尝试了Python中用于数据分析的所有方法,但性能一直非常令人失望.

这是探索将我们当前的分析/数据管理环境从Stata迁移到Python的大型项目的一部分.当我将测试中的读/写时间与Stata中的读/写时间进行比较时,Python和Pandas的使用时间通常超过20倍.

我强烈怀疑我是问题,而不是Python或Pandas.

有什么建议?

python pandas

5
推荐指数
1
解决办法
6727
查看次数

百分位数与Pandas groupby/aggregate相结合

我正在尝试创建一个函数来计算数据框中多个变量的不同百分位数.我正在使用dict结合Pandas聚合函数,如下所示:

dfG = df.groupby('ClinicalEpisode')
dfA = dfG.agg( { 'Total LOS' : 
                 {'Total LOS P5' : 'pd.quantile(.05)',
                  'Total LOS P10' : 'pd.quantile(.10)',
                  'Total LOS P15' : 'pd.quantile(.15)',
                  'Total LOS P20' : 'pd.quantile(.20)',
                  'Total LOS P25' : 'pd.quantile(.25)',
                  'Total LOS P30' : 'pd.quantile(.30)',
                  'Total LOS P33' : 'pd.quantile(.333333)',
                  'Total LOS P35' : 'pd.quantile(.35)',
                  'Total LOS P40' : 'pd.quantile(.40)',
                  'Total LOS P50' : 'pd.quantile(.50)',
                  'Total LOS P75' : 'pd.quantile(.75)',
                  'Total LOS P80' : 'pd.quantile(.80)',
                  'Total LOS P90' : 'pd.quantile(.90)'},
            'Trigger SNF LOS' : …
Run Code Online (Sandbox Code Playgroud)

python pandas

1
推荐指数
1
解决办法
3854
查看次数

标签 统计

pandas ×2

python ×2