背景
我试图使用以下数据和规范文档来拟合主题模型= 140 000,单词= 3000,主题= 15.我topicmodels在Windows 7机器上使用R(3.1.2)中的软件包(ram 24 GB ,8核心).我的问题是计算只能继续进行,而不会产生任何"收敛".
我在LDA()函数中使用默认选项topicmodels:
运行模型
dtm2.sparse_TM <- LDA(dtm2.sparse, 15)
Run Code Online (Sandbox Code Playgroud)
该模型已经运行了大约72个小时 - 仍然像我写的那样.
问题 所以,我的问题是(a)这是否是正常行为; (b)如果不是第一个问题,你对做什么有任何建议; (c)如果对第一个问题是肯定的,我怎样才能大大提高计算的速度?
附加信息:原始数据不包含3000字,但约370万字.当我跑(在同一台机器上)它没有收敛,甚至在几周之后.所以我用300个单词运行它,只有500个文件(随机选择)并且都不是很好.对于所有模型,我使用与以前相同的主题和默认值.
因此,对于我当前的模型(请参阅我的问题),我在tm包的帮助下删除了稀疏术语.
删除稀疏术语
dtm2.sparse <- removeSparseTerms(dtm2, 0.9)
Run Code Online (Sandbox Code Playgroud)
感谢提前输入Adel