我有一个(26424 x 144)数组,我想用Python执行PCA.但是,网上没有特别的地方可以解释如何实现这个任务(有些网站只是按照自己的方式做PCA - 我没有找到这样做的通用方法).任何有任何帮助的人都会做得很好.
我试图了解Principal Component Analysis它是如何工作的,我正在sklearn.datasets.load_iris数据集上对其进行测试。我了解每个步骤的工作原理(例如,对数据进行标准化、协方差、特征分解、对最高特征值进行排序、使用K选定维度将原始数据转换为新轴)。
下一步是可视化这些eigenvectors投影到数据集的位置(在 上PC1 vs. PC2 plot,对吗?)。
另外,我是否正确绘制了这个 2D 版本?我不确定为什么我的第一个特征向量的长度较短。我应该乘以特征值吗?
以下是我为实现这一目标所做的一些研究:
我遵循的 PCA 方法来自:https :
//plot.ly/ipython-notebooks/principal-component-analysis/#Shortcut---PCA-in-scikit-learn(虽然我不想使用plotly. 我想坚持pandas, numpy, sklearn, matplotlib, scipy, and seaborn)
我一直在关注这个绘制特征向量的教程,它看起来很简单:使用 matplotlib 的 PCA 的基本示例,但我似乎无法用我的数据复制结果。
我发现了这一点,但对于我想要做的事情来说似乎过于复杂,我不想创建一个FancyArrowPatch:使用 matplotlib 和 np.linalg 绘制协方差矩阵的特征向量
我试图让我的代码尽可能简单,以遵循其他教程:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from …Run Code Online (Sandbox Code Playgroud)