小编kal_lle的帖子

使用大型 (+15 gb) CSV 数据集和 Pandas/XGBoost

我试图找到一种开始在 Pandas 中处理非常大的 CSV 文件的方法，最终能够使用 XGBoost 进行一些机器学习。

我在使用 mySQL 或一些 sqllite 框架来管理我的数据块之间挣扎；我的问题是稍后的机器学习方面，以及一次加载块以训练模型。

我的另一个想法是使用Dask，它是由 Pandas 构建的，但也具有 XGBoost 功能。

我不确定最好的起点是什么，并希望征求意见！我倾向于，Dask但我还没有使用它。

python machine-learning pandas dask xgboost

3
推荐指数

1
解决办法

2919
查看次数

标签统计

dask ×1

machine-learning ×1