用于大型数据集的主题建模工具(30GB)

Ben*_*ben 5 lda topic-modeling

我正在寻找一些适用于大型数据集的主题建模工具.

我目前的培训数据集是30 GB.我尝试过MALLET主题建模,但总是得到OutOfMemoryError.

如果您有任何提示,请告诉我.

sin*_*wav 2

您可以选择很多选项,并且此响应对于它们如何进行比较是不可知的。

我认为对于如此大的数据集,重要的是使用近似后验推理的方法,而不一定是软件实现。根据这篇论文,在线变分贝叶斯推理在时间和空间方面比吉布斯采样要高效得多。虽然我从未使用过它,但gensim包看起来不错。它是用Python编写的,并且在项目的网页上有深入的教程。

对于直接来自源代码的代码,请参阅LDA模型的作者之一 David Blei 的网页,此处。他链接到多种语言(R、Java、C++)的多个实现。