如何将参数传递给scikit中只有一部分管道对象学习?

Sot*_*her 10 python pipeline pandas scikit-learn

我需要传递一个参数,sample_weightRandomForestClassifier喜欢这样:

X = np.array([[2.0, 2.0, 1.0, 0.0, 1.0, 3.0, 3.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0,
        1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 5.0, 3.0,
        2.0, '0'],
       [15.0, 2.0, 5.0, 5.0, 0.466666666667, 4.0, 3.0, 2.0, 0.0, 0.0, 0.0,
        0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0,
        7.0, 14.0, 2.0, '0'],
       [3.0, 4.0, 3.0, 1.0, 1.33333333333, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0,
        0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0,
        9.0, 8.0, 2.0, '0'],
       [3.0, 2.0, 3.0, 0.0, 0.666666666667, 2.0, 2.0, 1.0, 0.0, 0.0, 0.0,
        0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0,
        5.0, 3.0, 1.0, '0']], dtype=object)

y = np.array([ 0.,  0.,  1.,  0.])

m = sklearn.ensemble.RandomForestClassifier(
        random_state=0, 
        oob_score=True, 
        n_estimators=100,
        min_samples_leaf=5, 
        max_depth=10)

m.fit(X, y, sample_weight=np.array([3,4,2,3]))
Run Code Online (Sandbox Code Playgroud)

上面的代码完全正常.然后,我尝试在管道对象中执行此操作,使用管道对象而不是仅使用随机林:

m = sklearn.pipeline.Pipeline([
    ('feature_selection', sklearn.feature_selection.SelectKBest(
        score_func=sklearn.feature_selection.f_regression,
        k=25)),
    ('model', sklearn.ensemble.RandomForestClassifier(
        random_state=0, 
        oob_score=True, 
        n_estimators=500,
        min_samples_leaf=5, 
        max_depth=10))])

m.fit(X, y, sample_weight=np.array([3,4,2,3]))
Run Code Online (Sandbox Code Playgroud)

现在fit用" ValueError: need more than 1 value to unpack" 打破方法.

ValueError                                Traceback (most recent call last)
<ipython-input-212-c4299f5b3008> in <module>()
     25         max_depth=10))])
     26 
---> 27 m.fit(X, y, sample_weights=np.array([3,4,2,3]))

/usr/local/lib/python2.7/dist-packages/sklearn/pipeline.pyc in fit(self, X, y, **fit_params)
    128         data, then fit the transformed data using the final estimator.
    129         """
--> 130         Xt, fit_params = self._pre_transform(X, y, **fit_params)
    131         self.steps[-1][-1].fit(Xt, y, **fit_params)
    132         return self

/usr/local/lib/python2.7/dist-packages/sklearn/pipeline.pyc in _pre_transform(self, X, y, **fit_params)
    113         fit_params_steps = dict((step, {}) for step, _ in self.steps)
    114         for pname, pval in six.iteritems(fit_params):
--> 115             step, param = pname.split('__', 1)
    116             fit_params_steps[step][param] = pval
    117         Xt = X

ValueError: need more than 1 value to unpack
Run Code Online (Sandbox Code Playgroud)

我正在使用sklearn版本0.14.
我认为问题在于F selection管道中的步骤不会为sample_weights接受参数.如何在运行" fit"时将此参数传递给管道中的一个步骤?谢谢.

ali*_*i_m 17

从文档:

管道的目的是组合几个步骤,这些步骤可以在设置不同参数的同时进行交叉验证.为此,它可以使用它们的名称和以"__"分隔的参数名称来设置各个步骤的参数,如下例所示.

所以你可以简单地插入model__你想要传递给你的'model'步骤的任何合适的参数kwargs :

m.fit(X, y, model__sample_weight=np.array([3,4,2,3]))
Run Code Online (Sandbox Code Playgroud)

  • @Sother:您确定使用两个下划线而不仅仅是一个吗?如果只使用一个,则确实会得到相同的错误.我用的是0.17; 你应该更新...... (2认同)

dex*_*cko 5

您还可以使用该方法set_params并在步骤名称之前添加。

m = sklearn.pipeline.Pipeline([
    ('feature_selection', sklearn.feature_selection.SelectKBest(
        score_func=sklearn.feature_selection.f_regression,
        k=25)),
    ('model', sklearn.ensemble.RandomForestClassifier(
        random_state=0, 
        oob_score=True, 
        n_estimators=500,
        min_samples_leaf=5, 
        max_depth=10))])
Run Code Online (Sandbox Code Playgroud)
m.set_params(model__sample_weight=np.array([3,4,2,3]))
Run Code Online (Sandbox Code Playgroud)