XGBRegressor比GradientBoostingRegressor慢得多

Question

XGBRegressor比GradientBoostingRegressor慢得多

我是新手，xgboost并通过与传统的比较，试图学习如何使用它gbm。但是，我注意到它xgboost比慢得多gbm。示例是：

from sklearn.model_selection import KFold, GridSearchCV
from sklearn.ensemble import GradientBoostingRegressor
from xgboost import XGBRegressor
from sklearn.datasets import load_boston
import time

boston = load_boston()
X = boston.data
y = boston.target

kf = KFold(n_splits = 5)
cv_params = {'cv': kf, 'scoring': 'r2', 'n_jobs': 4, 'verbose': 1}

gbm = GradientBoostingRegressor()
xgb = XGBRegressor()

grid = {'n_estimators': [100, 300, 500], 'max_depth': [3, 5]}

timer = time.time()
gbm_cv = GridSearchCV(gbm, param_grid = grid, **cv_params).fit(X, y)
print('GBM time: ', time.time() - timer)

timer = time.time()
xgb_cv = GridSearchCV(xgb, param_grid = grid, **cv_params).fit(X, y)
print('XGB time: ', time.time() - timer)

Run Code Online (Sandbox Code Playgroud)

在具有8核的Macbook Pro上，输出为：

Fitting 5 folds for each of 6 candidates, totalling 30 fits
[Parallel(n_jobs=4)]: Done  30 out of  30 | elapsed:    1.9s finished
GBM time:  2.262791872024536
Fitting 5 folds for each of 6 candidates, totalling 30 fits
[Parallel(n_jobs=4)]: Done  30 out of  30 | elapsed:   16.4s finished
XGB time:  17.902266025543213

Run Code Online (Sandbox Code Playgroud)

我认为xgboost应该更快，所以我一定做错了。有人可以帮我指出我在做什么吗？

Answer 1

Viv*_*mar 2

这是在我的机器上运行时的输出，没有设置n_jobs参数cv_params

Fitting 5 folds for each of 6 candidates, totalling 30 fits
[Parallel(n_jobs=1)]: Done  30 out of  30 | elapsed:    4.1s finished
('GBM time: ', 4.248916864395142)
Fitting 5 folds for each of 6 candidates, totalling 30 fits
('XGB time: ', 2.934467077255249)
[Parallel(n_jobs=1)]: Done  30 out of  30 | elapsed:    2.9s finished

Run Code Online (Sandbox Code Playgroud)

当n_jobs设置为4时，GBM输出为2.5s，但XGB需要很长时间。

所以也许这是 n_jobs 的问题！也许 XGBoost 库没有很好地配置为使用 GridSearchCV 运行 n_jobs。

归档时间：	9 年，6 月前
查看次数：	1269 次
最近记录：	9 年，5 月前