使用大型 (+15 gb) CSV 数据集和 Pandas/XGBoost

kal*_*lle 3 python machine-learning pandas dask xgboost

我试图找到一种开始在 Pandas 中处理非常大的 CSV 文件的方法,最终能够使用 XGBoost 进行一些机器学习。

我在使用 mySQL 或一些 sqllite 框架来管理我的数据块之间挣扎;我的问题是稍后的机器学习方面,以及一次加载块以训练模型。

我的另一个想法是使用Dask,它是由 Pandas 构建的,但也具有 XGBoost 功能。

我不确定最好的起点是什么,并希望征求意见!我倾向于,Dask但我还没有使用它。

MRo*_*lin 5

这篇博文通过一个在大型 CSV 数据集上使用 XGBoost 的示例。然而,它通过使用具有足够 RAM 的分布式集群来一次性将整个数据集放入内存中。虽然许多 dask.dataframe 操作可以在小空间内运行,但我认为 XGBoost 训练不太可能是其中之一。当所有数据始终可用时,XGBoost 似乎运行得最好。