Li *_* Yu 3 pca apache-spark apache-spark-mllib
在spark.mllib.feature中使用PCA时,输入数据的cols超过65535,但是PCA中定义的RowMatrix为<65535,这是否意味着我不能使用PCA?
eli*_*sah 5
当前,PCA实现似乎在内存中拟合d ^ 2协方差/语法矩阵条目有局限性(d是矩阵的列数/维数)。
目前,它已固定为65535,因为当前PCA的实现扩展性不强。因此,您无法实际使用PCA。
参考:源代码。
JIRA有一个计划要实施的概率主成分分析算法,该算法应该是可扩展的,但似乎已解决为“无法解决” 。
归档时间:
9 年,8 月 前
查看次数:
661 次
最近记录:
6 年,4 月 前