小编kal*_*lle的帖子

使用大型 (+15 gb) CSV 数据集和 Pandas/XGBoost

我试图找到一种开始在 Pandas 中处理非常大的 CSV 文件的方法,最终能够使用 XGBoost 进行一些机器学习。

我在使用 mySQL 或一些 sqllite 框架来管理我的数据块之间挣扎;我的问题是稍后的机器学习方面,以及一次加载块以训练模型。

我的另一个想法是使用Dask,它是由 Pandas 构建的,但也具有 XGBoost 功能。

我不确定最好的起点是什么,并希望征求意见!我倾向于,Dask但我还没有使用它。

python machine-learning pandas dask xgboost

3
推荐指数
1
解决办法
2919
查看次数

标签 统计

dask ×1

machine-learning ×1

pandas ×1

python ×1

xgboost ×1