kar*_*k A 12 machine-learning feature-extraction
我试图通过PCA阅读并发现目标是最大化方差.我不太明白为什么.任何有关其他相关主题的解释/指示都会有所帮助
LSe*_*rni 14
方差衡量您所拥有数据的"可变性".组件的数量可能是无限的,因此您希望"挤压"您构建的有限集的每个组件中的大多数信息.
如果夸大,你要选择一个单一的主成分,你会希望它占了大多数变异可能:因此寻求最大差异,从而使一个组件收集最"独特性",从数据集.
请注意,PCA实际上不会增加数据的方差.相反,它以这样的方式旋转数据集,以便使用主轴对齐最广泛的方向.这使您可以删除数据几乎平坦的维度.这降低了数据的维数,同时保持点之间的方差(或扩展)尽可能接近原始值.
最大化分量向量方差与最大化那些向量的“唯一性”相同。因此,您是矢量,彼此之间的距离越远越好。这样,如果仅使用前N个分量矢量,则与相似矢量相比,高变化矢量将捕获更多空间。考虑一下主成分的实际含义。
例如,在3D空间中有两条正交的线。通过这些正交线,您可以比两条平行(或几乎平行)的线更完整地捕获环境。当使用很少的矢量将其应用于非常高的尺寸状态时,这将成为要维护的矢量之间更为重要的关系。在线性代数意义上,您希望PCA产生独立的行,否则其中某些行将是多余的。
有关基本说明,请参见普林斯顿大学CS部门的PDF。