为什么 sklearn Pipeline 调用 transform() 的次数比 fit() 多这么多？

Question

为什么 sklearn Pipeline 调用 transform() 的次数比 fit() 多这么多？

Max*_*wer 2 python pipeline machine-learning scikit-learn

经过大量阅读和检查不同verbose参数设置下的pipeline.fit()操作后，我仍然很困惑为什么我的管道会多次访问某个步骤的transform方法。

下面是一个简单的例子pipeline，fit有GridSearchCV使用3倍交叉验证，但PARAM栅与只有一组hyperparams的。所以我预计三个运行通过管道。双方step1并step2已fit叫了三次，符合市场预期，但每一步transform叫了好几次。为什么是这样？下面的最小代码示例和日志输出。

# library imports
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression
from sklearn.base import TransformerMixin, BaseEstimator
from sklearn.pipeline import Pipeline

# Load toy data
iris = datasets.load_iris()
X = pd.DataFrame(iris.data, columns = iris.feature_names)
y = pd.Series(iris.target, name='y')

# Define a couple trivial pipeline steps
class mult_everything_by(TransformerMixin, BaseEstimator):

    def __init__(self, multiplier=2):
        self.multiplier = multiplier

    def fit(self, X, y=None):
        print "Fitting step 1"
        return self

    def transform(self, X, y=None):
        print "Transforming step 1"
        return X* self.multiplier

class do_nothing(TransformerMixin, BaseEstimator):

    def __init__(self, meaningless_param = 'hello'):
        self.meaningless_param=meaningless_param


    def fit(self, X, y=None):
        print "Fitting step 2"
        return self

    def transform(self, X, y=None):
        print "Transforming step 2"
        return X

# Define the steps in our Pipeline
pipeline_steps = [('step1', mult_everything_by()),
                  ('step2', do_nothing()), 
                  ('classifier', LogisticRegression()),
                  ]

pipeline = Pipeline(pipeline_steps)

# To keep this example super minimal, this param grid only has one set
# of hyperparams, so we are only fitting one type of model
param_grid = {'step1__multiplier': [2],   #,3],
              'step2__meaningless_param': ['hello']   #, 'howdy', 'goodbye']
              }

# Define model-search process/object
# (fit one model, 3-fits due to 3-fold cross-validation)
cv_model_search = GridSearchCV(pipeline, 
                               param_grid, 
                               cv = KFold(3),
                               refit=False, 
                               verbose = 0) 

# Fit all (1) models defined in our model-search object
cv_model_search.fit(X,y)

Run Code Online (Sandbox Code Playgroud)

输出：

Fitting step 1
Transforming step 1
Fitting step 2
Transforming step 2
Transforming step 1
Transforming step 2
Transforming step 1
Transforming step 2
Fitting step 1
Transforming step 1
Fitting step 2
Transforming step 2
Transforming step 1
Transforming step 2
Transforming step 1
Transforming step 2
Fitting step 1
Transforming step 1
Fitting step 2
Transforming step 2
Transforming step 1
Transforming step 2
Transforming step 1
Transforming step 2

Run Code Online (Sandbox Code Playgroud)

Answer 1

Viv*_*mar 5

因为您使用了GridSearchCVwith cv = KFold(3)which 将对您的模型进行交叉验证。这是发生的事情：

它将数据分成两部分：训练和测试。
对于 train，它将拟合和转换管道的每个部分（不包括最后一个，即分类器）。这就是你看到的原因fit step1, transform step1, fit step2, transform step2。
它将适合分类器上的转换数据（未打印在您的输出中。
编辑现在是评分部分。在这里，我们不想再次重新安装零件。我们将使用在之前的拟合过程中学到的信息。所以管道的每一部分只会调用transform()。这就是原因Transforming step 1, Transforming step 2。

它显示了两次，因为在 GridSearchCV 中，默认行为是计算训练和测试数据的分数。这种行为是由产生的return_train_score。您可以设置return_train_score=False并且只会看到它们一次。
转换后的测试数据将用于预测分类器的输出。（同样，没有拟合测试，只有预测或转换）。
预测值将用于与实际值进行比较以对模型进行评分。
步骤 1-6 将重复 3 次(KFold(3))。
现在看看你的参数：

param_grid = {'step1__multiplier': [2], #,3], 'step2__meaningless_param': ['hello'] #, 'howdy', 'goodbye'] }

扩展时，它变成了唯一的组合，即：

组合 1 : 'step1__multiplier'=2, 'step2__meaningless_param' = 'hello'

如果您提供了更多选项，您已经评论了更多组合，例如：

组合 1 : 'step1__multiplier'=2, 'step2__meaningless_param' = 'hello'

组合 2 : 'step1__multiplier'=3, 'step2__meaningless_param' = 'hello'

组合 3 : 'step1__multiplier'=2, 'step2__meaningless_param' = 'howdy'

等等..
将针对每种可能的组合重复步骤 1-7。
将选择在交叉验证的测试折叠上给出最高平均分数的组合，以最终拟合具有完整数据的模型（不分为训练和测试）。
但你一直保持着refit=False。所以模型将不会再次拟合。否则你会看到另一个输出

拟合步骤 1 变换步骤 1 拟合步骤 2 变换步骤 2

希望这可以解决这个问题。随时询问更多信息。

归档时间：	7 年，10 月前
查看次数：	1437 次
最近记录：	7 年，10 月前