从sklearn PCA获得特征值和向量

Abh*_*tia 28 python scipy pca scikit-learn

如何获得PCA应用的特征值和特征向量?

from sklearn.decomposition import PCA
clf=PCA(0.98,whiten=True)      #converse 98% variance
X_train=clf.fit_transform(X_train)
X_test=clf.transform(X_test)
Run Code Online (Sandbox Code Playgroud)

我在文档中找不到它.

我"不能"理解这里的不同结果.

编辑:

def pca_code(data):
    #raw_implementation
    var_per=.98
    data-=np.mean(data, axis=0)
    data/=np.std(data, axis=0)
    cov_mat=np.cov(data, rowvar=False)
    evals, evecs = np.linalg.eigh(cov_mat)
    idx = np.argsort(evals)[::-1]
    evecs = evecs[:,idx]
    evals = evals[idx]
    variance_retained=np.cumsum(evals)/np.sum(evals)
    index=np.argmax(variance_retained>=var_per)
    evecs = evecs[:,:index+1]
    reduced_data=np.dot(evecs.T, data.T).T
    print(evals)
    print("_"*30)
    print(evecs)
    print("_"*30)
    #using scipy package
    clf=PCA(var_per)
    X_train=data.T
    X_train=clf.fit_transform(X_train)
    print(clf.explained_variance_)
    print("_"*30)
    print(clf.components_)
    print("__"*30)
Run Code Online (Sandbox Code Playgroud)
  1. 我希望获得所有特征值和特征向量,而不仅仅是具有收敛条件的简化集.

ldi*_*rer 51

你的实施

您正在计算相关矩阵的特征向量,即归一化变量的协方差矩阵.
data/=np.std(data, axis=0)不是经典PCA的一部分,我们只关注变量.因此,sklearn PCA 不会事先对数据进行扩展.

除此之外,如果我们抽象出你提供的代码没有运行的事实,那么你是在正确的轨道上;).您只对行/列布局感到困惑.老实说,我认为X = data.T从那里开始并且仅使用X工作要容易得多.我在帖子的末尾添加了代码"fixed".

获得特征值

您已经注意到可以使用特征向量clf.components_.

所以你有主要的组成部分.它们是协方差矩阵$ X ^ TX $的特征向量.

从那里检索特征值的方法是将该矩阵应用于每个主成分并将结果投影到组件上.设v_1为第一主成分,lambda_1为相关的特征值.我们有:
EQ 因此: EQ2 以来 EQ3.(x,y)向量x和y的标量积.

回到Python,您可以:

n_samples = X.shape[0]
# We center the data and compute the sample covariance matrix.
X -= np.mean(X, axis=0)
cov_matrix = np.dot(X.T, X) / n_samples
for eigenvector in pca.components_:
    print(np.dot(eigenvector.T, np.dot(cov_matrix, eigenvector)))
Run Code Online (Sandbox Code Playgroud)

并且您获得与特征向量相关联的特征值.好吧,在我的测试中,结果证明不使用这对夫妇的最后特征值,但我认为这归因于我缺乏数值稳定性的技能.

现在这不是获得特征值的最佳方法,但很高兴知道它们来自哪里.
特征值表示特征向量方向的方差.所以你可以通过pca.explained_variance_属性获取它们:

eigenvalues = pca.explained_variance_
Run Code Online (Sandbox Code Playgroud)

这是一个可重现的示例,它打印您使用每种方法获得的特征值:

import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import make_classification


X, y = make_classification(n_samples=1000)
n_samples = X.shape[0]

pca = PCA()
X_transformed = pca.fit_transform(X)

# We center the data and compute the sample covariance matrix.
X_centered = X - np.mean(X, axis=0)
cov_matrix = np.dot(X_centered.T, X_centered) / n_samples
eigenvalues = pca.explained_variance_
for eigenvalue, eigenvector in zip(eigenvalues, pca.components_):    
    print(np.dot(eigenvector.T, np.dot(cov_matrix, eigenvector)))
    print(eigenvalue)
Run Code Online (Sandbox Code Playgroud)

您的原始代码已修复

如果你运行它,你会看到值是一致的.它们并不完全相同,因为numpy和scikit-learn在这里没有使用相同的算法.
主要的是你使用相关矩阵而不是协方差,如上所述.你也从numpy那里得到了转置的特征向量,这让它变得非常混乱.

import numpy as np
from scipy.stats.mstats import zscore
from sklearn.decomposition import PCA

def pca_code(data):
    #raw_implementation
    var_per=.98
    data-=np.mean(data, axis=0)
    # data/=np.std(data, axis=0)
    cov_mat=np.cov(data, rowvar=False)
    evals, evecs = np.linalg.eigh(cov_mat)
    idx = np.argsort(evals)[::-1]
    evecs = evecs[:,idx]
    evals = evals[idx]
    variance_retained=np.cumsum(evals)/np.sum(evals)
    index=np.argmax(variance_retained>=var_per)
    evecs = evecs[:,:index+1]
    reduced_data=np.dot(evecs.T, data.T).T
    print("evals", evals)
    print("_"*30)
    print(evecs.T[1, :])
    print("_"*30)
    #using scipy package
    clf=PCA(var_per)
    X_train=data
    X_train=clf.fit_transform(X_train)
    print(clf.explained_variance_)
    print("_"*30)
    print(clf.components_[1,:])
    print("__"*30)
Run Code Online (Sandbox Code Playgroud)

希望这有帮助,随时要求澄清.


小智 13

我使用了sklearn PCA函数。返回参数“components_”是特征向量,“explained_variance_”是特征值。下面是我的测试代码。

from sklearn.decomposition import PCA
import numpy as np


def main():
    data = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9], [1.9, 2.2], [3.1, 3.0], [2.3, 2.7], [2, 1.6], [1, 1.1], [1.5, 1.6], [1.1, 0.9]])
    print(data)
    pca = PCA()
    pca.fit(data)

    print(pca.components_)
    print(pca.explained_variance_)



if __name__ == "__main__":
    main()
Run Code Online (Sandbox Code Playgroud)