将稀疏矩阵从Python传输到R

Cra*_*aig 8 python r text-analysis sparse-matrix

我正在用Python做一些文本分析工作.不幸的是,我需要切换到R才能使用特定的软件包(遗憾的是,软件包无法轻松地在Python中复制).

目前,文本被解析为二元组计数,缩减为大约11,000个双字母的词汇,然后存储为字典:

{id1: {'bigrams':[(bigram1, count), (bigram2, count), ...]},
id2: {'bigrams': ...} 
Run Code Online (Sandbox Code Playgroud)

我需要将它放入R中的dgCMatrix中,其中行是id1,id2,...并且列是不同的双字母组合,以便单元格表示该id-bigram的"计数".

有什么建议?我想把它扩展到一个巨大的CSV,但这似乎超级低效加上由于内存限制可能不可行.

ear*_*ino 7

您能否使用scipy mmwrite以MatrixMarket格式写出矩阵,然后使用Matrix包中的readMM将其读入R ?

  • 这有效!它不是一种超级内存有效的方式(据我所知),但设法让它在我的电脑上运行就好了. (2认同)