pandas_profiling 运行时间太长

Rad*_*adV 3 pandas pandas-profiling

如果有人尝试过pandas-profiling 包,请帮助我提供任何有关使其运行得更快的见解。包的输出报告非常整洁和详细,但即使使用中等大小的数据集,创建报告也需要很长时间。Kaggle bulldozers 数据集中大约 10 列和 400K 行花费了 21 分钟(非 GPU)。想知道是否值得进一步调查。

df.shape
(401125, 9)


start = datetime.datetime.now()
profile = df.profile_report(title="Exploring Dataset")
profile.to_file(output_file=Path("./data_report.html"))

end = datetime.datetime.now()
print(end-start)

0:21:23.976324
Run Code Online (Sandbox Code Playgroud)

Sim*_*mon 5

根据您感兴趣的内容,您可以禁用 pandas-profiling 中消耗最多时间的其他功能,因为它是模块化的。目前,这是您加速以及对数据集进行采样的首选解决方案。

这里有几个相关的问题:

从长远来看,我们计划允许更好的并行化和更合理的默认值: https://github.com/pandas-profiling/pandas-profiling/issues/279

编辑:

从 v2.4 开始,有最小模式,将包配置为自动使用较低计算设置:https://github.com/pandas-profiling/pandas-profiling#large-datasets