Dar*_*ryO 5 svd apache-spark
我想分析火花数据.如果python不起作用我需要svd矩阵来实现使用python或scala的推荐算法.但数据庞大且稀疏.
数据中有两列.一个是用户名,另一个是项名.如果用户和项目在一行中,则表示用户喜欢此项目.有700k项目和20k用户.所以它是case memoryerror.
如何处理它
小智 0
我建议您在 scipy csr matrix下加载数据。
存储稀疏矩阵比使用 numpy 更有效。
最好的。
归档时间:
11 年,2 月 前
查看次数:
571 次
最近记录:
6 年,8 月 前