在python/R中使用稀疏矩阵的利弊?

Abe*_*Abe 8 python r sparse-matrix

我正在使用python中的大型稀疏矩阵(文本生成的文档特征矩阵).它需要相当多的处理时间和内存来咀嚼这些,我想稀疏矩阵可以提供一些改进.但是我担心使用稀疏矩阵库会使插入其他python(和R,通过rpy2)模块变得更加困难.

穿过这座桥的人是否已经提供了一些建议?在性能,可伸缩性和兼容性方面,在python/R中使用稀疏矩阵的优缺点是什么?

zah*_*anm 1

在 Python 中使用稀疏矩阵本身可能并不是一个好主意。您检查过numpy / scipy 中的稀疏矩阵吗?

Numpy 带来了主要使用 C 代码来在 Python 中提供性能提升的巨大好处。

根据我在 R 中进行文本处理的有限经验,其性能使其几乎无法用于探索性数据分析之外的任何用途。

无论如何,您不应该对稀疏矩阵使用普通列表,(可以理解)需要一段时间来仔细研究它们。