将每个文档转换为Blei的lda-c/dtm格式以进行主题建模?

5 nlp dataform lda

我正在进行一些研究的Latent Dirichlet分析并继续遇到问题.大多数lda软件要求文档采用doclines格式,即CSV或其他分隔文件,其中每行代表文档的整体.然而,Blei的LDA-C和动态主题模型的软件要求将数据格式:[M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]这里[M]是文档中唯一项的数量,以及第[count]与每个术语相关的是多少次这个词出现在文档中.注意,这[term_1]是一个对术语进行索引的整数; 它不是一个字符串.

有没有人知道一个实用程序会让我快速转换为这种格式?谢谢.

Ben*_*Ben 3

如果您正在使用R,该lda包包含一个函数lexicalize,可以将原始文本转换为该lda包所需的 lda-c 格式。

example <- c("I am the very model of a modern major general",
             "I have a major headache")

corpus <- lexicalize(example, lower=TRUE) 
Run Code Online (Sandbox Code Playgroud)

同样,该包具有将文档术语矩阵转换为 lda 格式的topicmodels函数。dtm2ldaformat您可以使用该包将纯文本文档转换为文档术语矩阵tm,也可以使用R.

R因此,利用这些现有功能,将文本输入主题建模方面具有很大的灵活性。