我试图找到一种开始在 Pandas 中处理非常大的 CSV 文件的方法,最终能够使用 XGBoost 进行一些机器学习。
我在使用 mySQL 或一些 sqllite 框架来管理我的数据块之间挣扎;我的问题是稍后的机器学习方面,以及一次加载块以训练模型。
我的另一个想法是使用Dask,它是由 Pandas 构建的,但也具有 XGBoost 功能。
Dask
我不确定最好的起点是什么,并希望征求意见!我倾向于,Dask但我还没有使用它。
python machine-learning pandas dask xgboost
dask ×1
machine-learning ×1
pandas ×1
python ×1
xgboost ×1