相关疑难解决方法(0)

如何使用sklearn的cross_val_score()标准化数据

假设我要使用LinearSVC对数据集执行k折交叉验证。如何对数据进行标准化?

我读过的最佳实践是在培训数据上建立标准化模型,然后将此模型应用于测试数据。

当使用简单的train_test_split()时,这很容易,因为我们可以这样做:

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y)

clf = svm.LinearSVC()

scalar = StandardScaler()
X_train = scalar.fit_transform(X_train)
X_test = scalar.transform(X_test)

clf.fit(X_train, y_train)
predicted = clf.predict(X_test)
Run Code Online (Sandbox Code Playgroud)

做k折交叉验证时如何标准化数据?问题出在每个数据点都用于训练/测试,因此您无法在cross_val_score()之前将所有数据标准化。每个交叉验证是否都需要不同的标准化?

该文档没有提到函数内部发生的标准化。我是SOL吗?

编辑:这篇文章超级有帮助:Python-sklearn.pipeline.Pipeline到底是什么?

python standardized svm scikit-learn cross-validation

6
推荐指数
1
解决办法
2501
查看次数