如何使用Scikit-Learn Wrapper匹配XGBoost和XGBoost进行预测？

Question

如何使用Scikit-Learn Wrapper匹配XGBoost和XGBoost进行预测？

Jos*_*h E 10 python scikit-learn xgboost

我是Python新手XGBoost所以我很抱歉,如果这里的答案显而易见,但我正在尝试使用panda数据帧并在Python中获取XGBoost,以便在使用Scikit-Learn包装器时获得相同的预测行使.到目前为止,我一直无法这样做.举一个例子,这里我拿波士顿数据集,转换为熊猫数据帧,训练数据集的前500个观测值,然后预测最后的6.我首先使用XGBoost,然后使用Scikit-Learn包装器和即使我将模型的参数设置为相同,我也会得到不同的预测.具体来说,数组预测看起来与数组预测2非常不同(参见下面的代码).任何帮助将非常感激!

from sklearn import datasets
import pandas as pd
import xgboost as xgb
from xgboost.sklearn import XGBClassifier
from xgboost.sklearn import XGBRegressor

### Use the boston data as an example, train on first 500, predict last 6 
boston_data = datasets.load_boston()
df_boston = pd.DataFrame(boston_data.data,columns=boston_data.feature_names)
df_boston['target'] = pd.Series(boston_data.target)


#### Code using XGBoost
Sub_train = df_boston.head(500)
target = Sub_train["target"]
Sub_train = Sub_train.drop('target', axis=1) 

Sub_predict = df_boston.tail(6)
Sub_predict = Sub_predict.drop('target', axis=1)  

xgtrain = xgb.DMatrix(Sub_train.as_matrix(), label=target.tolist())
xgtest = xgb.DMatrix(Sub_predict.as_matrix())

params = {'booster': 'gblinear', 'objective': 'reg:linear', 
      'max_depth': 2, 'learning_rate': .1, 'n_estimators': 500,    'min_child_weight': 3, 'colsample_bytree': .7,
      'subsample': .8, 'gamma': 0, 'reg_alpha': 1}

model = xgb.train(dtrain=xgtrain, params=params)

predictions = model.predict(xgtest)

#### Code using Sk learn Wrapper for XGBoost
model = XGBRegressor(learning_rate =.1, n_estimators=500,
max_depth=2, min_child_weight=3, gamma=0, 
subsample=.8, colsample_bytree=.7, reg_alpha=1, 
objective= 'reg:linear')

target = "target"

Sub_train = df_boston.head(500)
Sub_predict = df_boston.tail(6)
Sub_predict = Sub_predict.drop('target', axis=1)

Ex_List = ['target']

predictors = [i for i in Sub_train.columns if i not in Ex_List]

model = model.fit(Sub_train[predictors],Sub_train[target])

predictions2 = model.predict(Sub_predict)

Run Code Online (Sandbox Code Playgroud)

Answer 1

Viv*_*mar 14

请在这里查看这个答案

xgboost.train将忽略参数n_estimators,同时 xgboost.XGBRegressor接受.在xgboost.train中,增强迭代(即n_estimators)由num_boost_round控制(默认值:10)

它建议n_estimators从提供的params中删除xgb.train并替换它num_boost_round.

所以改变你的params如下:

params = {'objective': 'reg:linear', 
      'max_depth': 2, 'learning_rate': .1,    
      'min_child_weight': 3, 'colsample_bytree': .7,
      'subsample': .8, 'gamma': 0, 'alpha': 1}

Run Code Online (Sandbox Code Playgroud)

并像这样训练xgb.train:

model = xgb.train(dtrain=xgtrain, params=params,num_boost_round=500)

Run Code Online (Sandbox Code Playgroud)

你会得到相同的结果.

或者,保持xgb.train原样并更改XGBRegressor,如下所示:

model = XGBRegressor(learning_rate =.1, n_estimators=10,
                     max_depth=2, min_child_weight=3, gamma=0, 
                     subsample=.8, colsample_bytree=.7, reg_alpha=1, 
                     objective= 'reg:linear')

Run Code Online (Sandbox Code Playgroud)

然后你也会得到相同的结果.

归档时间：	8 年，7 月前
查看次数：	4535 次
最近记录：	8 年，7 月前