如何使用scikit学习具有新值的inverse_transform

Question

如何使用scikit学习具有新值的inverse_transform

我有一套用于scikit学习PCA的数据。在使用StandardScaler（）执行PCA之前，我先缩放了数据。

variance_to_retain = 0.99
np_scaled = StandardScaler().fit_transform(df_data)
pca = PCA(n_components=variance_to_retain)
np_pca = pca.fit_transform(np_scaled)

# make dataframe of scaled data
# put column names on scaled data for use later
df_scaled = pd.DataFrame(np_scaled, columns=df_data.columns)
num_components = len(pca.explained_variance_ratio_)
cum_variance_explained = np.cumsum(pca.explained_variance_ratio_)

eigenvalues = pca.explained_variance_
eigenvectors = pca.components_

Run Code Online (Sandbox Code Playgroud)

然后，我对缩放后的数据集进行了K-Means聚类。我可以在缩放的空间中绘制聚类中心。

我的问题是：如何将中心的位置转换回原始数据空间。我知道StandardScaler.fit_transform（）使数据具有零均值和单位方差。但是有了新的形状点（num_clusters，num_features），我可以使用inverse_transform（centers）将中心转换回原始数据的范围和偏移量吗？

谢谢大卫

Answer 1

Moh*_*har 5

您可以在kmeans上获得cluster_centers，然后将其推入pca.inverse_transform

这是一个例子

import numpy as np
from sklearn import decomposition
from sklearn import datasets
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler



iris = datasets.load_iris()
X = iris.data
y = iris.target

scal = StandardScaler()
X_t = scal.fit_transform(X)

pca = decomposition.PCA(n_components=3)
pca.fit(X_t)
X_t = pca.transform(X_t)

clf = KMeans(n_clusters=3)
clf.fit(X_t)

scal.inverse_transform(pca.inverse_transform(clf.cluster_centers_))

Run Code Online (Sandbox Code Playgroud)

请注意，sklearn有多种执行拟合/变换的方法。您可以这样做，StandardScaler().fit_transform(X)但会丢失缩放器，并且无法重复使用它。也不能用它来创建逆。

或者，你可以做scal = StandardScaler()，然后scal.fit(X)再由scal.transform(X)

或者，您可以scal.fit_transform(X)结合使用拟合/变换步骤

归档时间：	7 年，6 月前
查看次数：	8432 次
最近记录：	7 年，6 月前