大型稀疏矩阵,带火花的svd,python

Dar*_*ryO 5 svd apache-spark

我想分析火花数据.如果python不起作用我需要svd矩阵来实现使用python或scala的推荐算法.但数据庞大且稀疏.

数据中有两列.一个是用户名,另一个是项名.如果用户和项目在一行中,则表示用户喜欢此项目.有700k项目和20k用户.所以它是case memoryerror.

如何处理它

小智 0

我建议您在 scipy csr matrix下加载数据。

存储稀疏矩阵比使用 numpy 更有效。

最好的。