如何仅在某些值上在管道内使用 StandardScaler？

Question

如何仅在某些值上在管道内使用 StandardScaler？

Tes*_*est 2 python pipeline machine-learning normalization scikit-learn

我有个问题。我想使用StandardScaler()，但我的数据集包含某些值和其他不应缩放的OneHotEncoding值。但如果我正在运行，所有值都会缩放。那么是否可以选择仅对管道内的某些值运行此方法？StandardScaler()

我发现了这个问题：使用以下代码对分类变量进行 One-Hot-Encode 并同时缩放连续变量

columns = ['rank'] columns_to_scale = ['gre', 'gpa'] scaler = StandardScaler() ohe = OneHotEncoder(sparse=False) # Concatenate (Column-Bind) Processed Columns Back Together processed_data = np.concatenate([scaled_columns, encoded_columns], axis=1)
Run Code Online (Sandbox Code Playgroud)
那么是否有一个选项可以仅在某些值上运行StandardScaler()内部 a pipeline，而其他值应该合并到缩放值中？因此管道应该只对值使用StandardScaler 'xy', 'xyz'。

标准定标器类

from sklearn.base import BaseEstimator, TransformerMixin class StandardScaler_with_certain_features(BaseEstimator, TransformerMixin): def __init__(self, columns_to_scale): scaler = StandardScaler() def fit(self, X, y = None): scaler.fit(X_train) # only std.fit on train set X_train_nor = scaler.transform(X_train.values) def transform(self, X, y = None): return X
Run Code Online (Sandbox Code Playgroud)
管道

columns_to_scale = ['xy', 'xyz'] steps = [('standard_scaler', StandardScaler_with_certain_features(columns_to_scale)), ('feature_selection', SelectFromModel(estimator=LogisticRegression(max_iter=100))), ('lasso', Lasso(alpha=0.03))] pipeline = Pipeline(steps) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=30) parameteres = { } grid = GridSearchCV(pipeline, param_grid=parameteres, cv=5) grid.fit(X_train, y_train) print("score = %3.2f" %(grid.score(X_test,y_test))) print('Training set score: ' + str(grid.score(X_train,y_train))) print('Test set score: ' + str(grid.score(X_test,y_test))) # Prediction y_pred = grid.predict(X_test) print("RMSE Val:", metrics.mean_squared_error(y_test, y_pred, squared=False))
Run Code Online (Sandbox Code Playgroud)

Answer 1

Fla*_*ino 7

ColumnTransformer您可以在中包含，Pipeline以便StandardScaler仅将其应用于某些列。您需要进行设置remainder='passthrough'以确保未缩放的列与已缩放的列连接起来。

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.linear_model import Lasso

df = pd.DataFrame({
    'y': np.random.normal(0, 1, 100),
    'x': np.random.normal(0, 1, 100),
    'z': np.random.normal(0, 1, 100),
    'xy': np.random.normal(2, 3, 100),
    'xyz': np.random.normal(4, 5, 100),
})

X = df.drop(labels=['y'], axis=1)
y = df['y']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=30)

preprocessor = ColumnTransformer(
    transformers=[('scaler', StandardScaler(), ['xy', 'xyz'])],
    remainder='passthrough'
)

pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('lasso', Lasso(alpha=0.03))
])

pipeline.fit(X_train, y_train)
pipeline.score(X_test, y_test)

Run Code Online (Sandbox Code Playgroud)

归档时间：	4 年，1 月前
查看次数：	2002 次
最近记录：	2 年，8 月前