PCA输入错误参数超过65535

Li *_* Yu 3 pca apache-spark apache-spark-mllib

在spark.mllib.feature中使用PCA时,输入数据的cols超过65535,但是PCA中定义的RowMatrix为<65535,这是否意味着我不能使用PCA?

eli*_*sah 5

当前,PCA实现似乎在内存中拟合d ^ 2协方差/语法矩阵条目有局限性(d是矩阵的列数/维数)。

目前,它已固定为65535,因为当前PCA的实现扩展性不强。因此,您无法实际使用PCA。

参考:源代码。

JIRA有一个计划要实施的概率主成分分析算法,该算法应该是可扩展的,但似乎已解决为无法解决” 。