如何使用csr_matrix初始化gensim语料库变量?

Cur*_*ous 6 python document-classification lda gensim scikit-learn

我有X作为csr_matrix,我使用scikit的tfidf矢量化器获得,y是一个数组

我的计划是使用LDA创建功能,但是,我没有找到如何使用X作为csr_matrix初始化gensim的语料库变量.换句话说,我不想下载gensim文档中显示的语料库,也不想将X转换为密集矩阵,因为它会消耗大量内存并且计算机可能会挂起.

简而言之,我的问题如下,

  1. 如果我有一个代表整个语料库的csr_matrix(稀疏),你如何初始化gensim语料库?
  2. 你如何使用LDA提取功能?

Fre*_*red 8

Gensim有一个半隐藏的功能,可以为你做这件事:

http://radimrehurek.com/gensim/matutils.html#gensim.matutils.Sparse2Corpus

"class gensim.matutils.Sparse2Corpus(sparse,documents_columns = True)将scipy.sparse格式的矩阵转换为流式gensim语料库."

我使用用CountVectorizer提取的语料库,然后加载到gensim中,我取得了一些成功.