Scikit-learn主成分分析(PCA)用于降维

Question

Scikit-learn主成分分析(PCA)用于降维

z99*_*991 7 python feature-extraction pca scikit-learn

我想对降维和数据集成进行主成分分析.

我有3个功能(变量)和5个样本,如下所示.我想通过转换它们(计算第一台PC)将它们集成到一维(1个特征)输出中.我想使用转换后的数据进行进一步的统计分析,因为我相信它显示了3个输入特征的"主要"特征.

我首先用python编写了一个测试代码,使用scikit-learn如下所示.简单的情况是3个特征的值都是等价的.换句话说,我将PCA用于三个相同的向量,[0,1,2,1,0].

码

import numpy as np
from sklearn.decomposition import PCA
pca = PCA(n_components=1)
samples = np.array([[0,0,0],[1,1,1],[2,2,2],[1,1,1],[0,0,0]])
pc1 = pca.fit_transform(samples)
print (pc1)

Run Code Online (Sandbox Code Playgroud)

产量

[[-1.38564065]
[ 0.34641016]
[ 2.07846097]
[ 0.34641016]
[-1.38564065]]

Run Code Online (Sandbox Code Playgroud)

降维后采用第一个PCA正确的数据集成方法？

1-2.例如,如果特征类似于[功率等级,速度等级],则功率与速度大致呈负相关,当它是2特征情况时.我想知道具有"高功率"和"高速"的样品.很容易确定[功率1,速度1]优于[功率2,速度2],但对于[功率4,速度2]与[功率3,速度3]的情况很难.因此,我想将PCA应用于二维"功率和速度"数据集,然后使用第一台PC,然后使用"第一台PC"的等级.这种方法仍然适用吗？

在这种情况下,我认为输出也应该是[0,1,2,1,0],它与输入相同.但输出为[-1.38564065,0.34641016,2.07846097,0.34641016,-1.38564065].代码有问题,还是正确的答案？

Answer 1

igr*_*nis 6

是.它也称为数据投影(向下维度).
得到的输出根据列车数据居中并标准化.结果是正确的.

如果只有5个样本,我认为运行任何统计方法都不明智.如果您认为您的功能相同,只需检查尺寸之间的相关性是否接近1,然后您可以忽略其他尺寸.

归档时间：	8 年，5 月前
查看次数：	873 次
最近记录：	8 年，4 月前