Python中的标准化/规范化测试数据

Question

Python中的标准化/规范化测试数据

Pao*_*ini 2 python normalization scikit-learn

我正在做一个sklearn家庭作业,我不明白为什么要用训练平均值和sd标准化和标准化测试数据.我怎样才能在Python中实现它？这是我对列车数据的实施:

digits = sklearn.datasets.load_digits()
X= digits.data
Y= digits.target
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3,train_size=0.7)
std_scale = preprocessing.StandardScaler().fit(X_train)
X_train_std = std_scale.transform(X_train)
#X_test_std=??

Run Code Online (Sandbox Code Playgroud)

对于火车我认为这是正确的,但对于测试？

Answer 1

sas*_*cha 8

为什么？

因为您的分类器/回归器将接受这些标准化值的培训.您不希望使用训练分类器来预测具有其他统计信息的数据.

怎么样:

std_scale = preprocessing.StandardScaler().fit(X_train)
X_train_std = std_scale.transform(X_train)
X_test_std  = std_scale.transform(X_test)

Run Code Online (Sandbox Code Playgroud)

适合一次,改变你需要变换的任何东西.这是基于类的StandardScaler(您已经选择的)与比例相比的优势,该比例不包含稍后应用转换(基于在拟合期间获得的这些统计数据)所需的所需信息.

归档时间：	8 年前
查看次数：	4016 次
最近记录：	8 年前