Python 中的 ElasticNetCV 与 R 中的 cvglmnet

Question

Python 中的 ElasticNetCV 与 R 中的 cvglmnet

Dmi*_*huk 3 python regression r machine-learning glmnet

有没有人试图通过在 Python 中实现 ElasticNetCV 和在 R 中实现 cvglmnet 来丰富相同的结果？我已经找到了如何在 Python 中的 ElasticNet 和 R 中的 glmnet 上制作它，但无法使用交叉验证方法重现它......

在 Python 中重现的步骤：

预处理：

from sklearn.datasets import make_regression
from sklearn.linear_model import ElasticNet, ElasticNetCV
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
import pandas as pd

data = make_regression(
    n_samples=100000,
    random_state=0
)
X, y = data[0], data[1]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.25)

pd.DataFrame(X_train).to_csv('X_train.csv', index=None)
pd.DataFrame(X_test).to_csv('X_test.csv', index=None)
pd.DataFrame(y_train).to_csv('y_train.csv', index=None)
pd.DataFrame(y_test).to_csv('y_test.csv', index=None)

Run Code Online (Sandbox Code Playgroud)

楷模：

model = ElasticNet(
    alpha=1.0,
    l1_ratio=0.5,
    fit_intercept=True,
    normalize=True,
    precompute=False,
    max_iter=100000,
    copy_X=True,
    tol=0.0000001,
    warm_start=False,
    positive=False,
    random_state=0,
    selection='cyclic'
)

model.fit(
    X=X_train,
    y=y_train
)

y_pred = model.predict(
    X=X_test
)

print(
    mean_squared_error(
        y_true=y_test,
        y_pred=y_pred
    )
)

Run Code Online (Sandbox Code Playgroud)

输出：42399.49815189786

model = ElasticNetCV(
    l1_ratio=0.5,
    eps=0.001,
    n_alphas=100,
    alphas=None,
    fit_intercept=True,
    normalize=True,
    precompute=False,
    max_iter=100000,
    tol=0.0000001,
    cv=10,
    copy_X=True,
    verbose=0,
    n_jobs=-1,
    positive=False,
    random_state=0,
    selection='cyclic'
)

model.fit(
    X=X_train,
    y=y_train
)

y_pred = model.predict(
    X=X_test
)

print(
    mean_squared_error(
        y_true=y_test,
        y_pred=y_pred
    )
)

Run Code Online (Sandbox Code Playgroud)

输出：39354.729173913176

在 R 中重现的步骤：

预处理：

library(glmnet)
X_train <- read.csv(path)
X_test <- read.csv(path)
y_train <- read.csv(path)
y_test <- read.csv(path)
fit <- glmnet(x=as.matrix(X_train), y=as.matrix(y_train))
y_pred <- predict(fit, newx = as.matrix(X_test))
y_error = y_test - y_pred
mean(as.matrix(y_error)^2)

Run Code Online (Sandbox Code Playgroud)

输出：42399.5

fit <- cv.glmnet(x=as.matrix(X_train), y=as.matrix(y_train))
y_pred <- predict(fit, newx = as.matrix(X_test))
y_error <- y_test - y_pred
mean(as.matrix(y_error)^2)

Run Code Online (Sandbox Code Playgroud)

输出：37.00207

Answer 1

Stu*_*olf 5

非常感谢您提供示例，我在笔记本电脑上，所以我不得不将样本数量减少到 100：

from sklearn.datasets import make_regression
from sklearn.linear_model import ElasticNet, ElasticNetCV
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
import pandas as pd

data = make_regression(
    n_samples=100,
    random_state=0
)
X, y = data[0], data[1]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.25)

Run Code Online (Sandbox Code Playgroud)

当您使用 glmnet 进行预测时，您需要指定 lambda，否则它将返回所有 lambda 的预测，因此在 R 中：

fit <- glmnet(x=as.matrix(X_train), y=as.matrix(y_train))
y_pred <- predict(fit, newx = as.matrix(X_test))
dim(y_pred)
[1] 25 89

Run Code Online (Sandbox Code Playgroud)

当你运行 cv.glmnet 时，它会从 cv 中选择最好的 lambda，即 lambda.1se，所以它只给你 1 个集合，这就是你想要的 rmse：

fit <- cv.glmnet(x=as.matrix(X_train), y=as.matrix(y_train))
y_pred <- predict(fit, newx = as.matrix(X_test))
y_error <- y_test - y_pred
mean(as.matrix(y_error)^2)
[1] 22.03504

dim(y_error)
[1] 25  1
fit$lambda.1se
[1] 1.278699

Run Code Online (Sandbox Code Playgroud)

如果我们选择最接近 glmnet 中 cv.glmnet 选择的 lambda，您将返回正确范围内的内容：

fit <- glmnet(x=as.matrix(X_train), y=as.matrix(y_train))
sel = which.min(fit$lambda-1.278699)
y_pred <- predict(fit, newx = as.matrix(X_test))[,sel]
mean((y_test - y_pred)^2)
dim(y_error)

mean(as.matrix((y_test - y_pred)^2))
[1] 20.0775

Run Code Online (Sandbox Code Playgroud)

在与 sklearn 进行比较之前，我们需要确保我们在相同的 lambda 范围内进行测试。

L = c(0.01,0.05,0.1,0.2,0.5,1,2)
fit <- cv.glmnet(x=as.matrix(X_train), y=as.matrix(y_train),lambda=L)
y_pred <- predict(fit, newx = as.matrix(X_test))
y_error <- y_test - y_pred
mean(as.matrix(y_error)^2)
[1] 0.003065869

Run Code Online (Sandbox Code Playgroud)

所以我们期望在 0.003065869 范围内的东西。我们使用相同的 lambda 来运行它，lambda 在 ElasticNet 中被称为 alpha。glmnet 中的 alpha 实际上是您的 l1_ratio，请参阅小插图。并且 normalize 选项应该设置为 False，因为：

如果为 True，回归变量 X 将在回归之前通过减去均值并除以 l2 范数进行归一化。如果您希望标准化，请在使用 normalize=False 对估计器调用 fit 之前使用 sklearn.preprocessing.StandardScaler。

所以我们只需使用 CV 运行它：

model = ElasticNetCV(l1_ratio=1,fit_intercept=True,alphas=[0.01,0.05,0.1,0.2,0.5,1,2])
model.fit(X=X_train,y=y_train)
y_pred = model.predict(X=X_test)
mean_squared_error(y_true=y_test,y_pred=y_pred)

0.0018007824874741929

Run Code Online (Sandbox Code Playgroud)

它与 R 结果在同一个球场附近。

如果你为 ElasticNet 做这件事，你会得到同样的结果，如果你指定 alpha。

归档时间：	6 年前
查看次数：	411 次
最近记录：	5 年，10 月前