我正在尝试使用主题模型对twitter流数据进行建模.Gensim是一款易于使用的解决方案,其简洁性令人印象深刻.它有一个真正的LSI在线实现,但不适用于LDA.对于像twitter这样不断变化的内容流,动态主题模型是理想的选择.有没有办法,甚至是黑客 - 一种实施甚至是一种策略,我可以利用这种方式将Gensim用于此目的?
是否有任何其他python实现派生(最好)来自Gensim或独立?我更喜欢python,因为我想尽快开始,但如果有一些最佳解决方案,请提及它.
谢谢.
我试图检查BOW语料库与LDA [BOW语料库]的内容(由在该语料库上训练的LDA模型转换,例如35个主题)我发现了以下输出:
DOC 1 : [(1522, 1), (2028, 1), (2082, 1), (6202, 1)]
LDA 1 : [(29, 0.80571428571428572)]
DOC 2 : [(1522, 1), (5364, 1), (6202, 1), (6661, 1), (6983, 1)]
LDA 2 : [(29, 0.83809523809523812)]
DOC 3 : [(3079, 1), (3395, 1), (4874, 1)]
LDA 3 : [(34, 0.75714285714285712)]
DOC 4 : [(1482, 1), (2806, 1), (3988, 1)]
LDA 4 : [(22, 0.50714288283121989), (32, 0.25714283145449457)]
DOC 5 : [(440, 1), (533, 1), (1264, 1), (2433, 1), (3012, 1), (3902, …Run Code Online (Sandbox Code Playgroud)