我正在进行一些研究的Latent Dirichlet分析并继续遇到问题.大多数lda软件要求文档采用doclines格式,即CSV或其他分隔文件,其中每行代表文档的整体.然而,Blei的LDA-C和动态主题模型的软件要求将数据格式:[M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]这里[M]是文档中唯一项的数量,以及第[count]与每个术语相关的是多少次这个词出现在文档中.注意,这[term_1]是一个对术语进行索引的整数; 它不是一个字符串.
有没有人知道一个实用程序会让我快速转换为这种格式?谢谢.
如果您正在使用R,该lda包包含一个函数lexicalize,可以将原始文本转换为该lda包所需的 lda-c 格式。
example <- c("I am the very model of a modern major general",
"I have a major headache")
corpus <- lexicalize(example, lower=TRUE)
Run Code Online (Sandbox Code Playgroud)
同样,该包具有将文档术语矩阵转换为 lda 格式的topicmodels函数。dtm2ldaformat您可以使用该包将纯文本文档转换为文档术语矩阵tm,也可以使用R.
R因此,利用这些现有功能,将文本输入主题建模方面具有很大的灵活性。
| 归档时间: |
|
| 查看次数: |
2977 次 |
| 最近记录: |