我试图找到使用Python/Pandas有效地在磁盘上写入大数据帧(250MB +)的最佳方法.我已经尝试了Python中用于数据分析的所有方法,但性能一直非常令人失望.
这是探索将我们当前的分析/数据管理环境从Stata迁移到Python的大型项目的一部分.当我将测试中的读/写时间与Stata中的读/写时间进行比较时,Python和Pandas的使用时间通常超过20倍.
我强烈怀疑我是问题,而不是Python或Pandas.
有什么建议?
我正在尝试创建一个函数来计算数据框中多个变量的不同百分位数.我正在使用dict结合Pandas聚合函数,如下所示:
dfG = df.groupby('ClinicalEpisode')
dfA = dfG.agg( { 'Total LOS' :
{'Total LOS P5' : 'pd.quantile(.05)',
'Total LOS P10' : 'pd.quantile(.10)',
'Total LOS P15' : 'pd.quantile(.15)',
'Total LOS P20' : 'pd.quantile(.20)',
'Total LOS P25' : 'pd.quantile(.25)',
'Total LOS P30' : 'pd.quantile(.30)',
'Total LOS P33' : 'pd.quantile(.333333)',
'Total LOS P35' : 'pd.quantile(.35)',
'Total LOS P40' : 'pd.quantile(.40)',
'Total LOS P50' : 'pd.quantile(.50)',
'Total LOS P75' : 'pd.quantile(.75)',
'Total LOS P80' : 'pd.quantile(.80)',
'Total LOS P90' : 'pd.quantile(.90)'},
'Trigger SNF LOS' : …Run Code Online (Sandbox Code Playgroud)