如何并行化topicmodels R包

Question

如何并行化topicmodels R包

Opt*_*mus 5 parallel-processing r lda topic-modeling

我有一系列文档（约 50,000 个），我已经将这些文档转换为语料库并使用 R 中的 topicmodels 包构建 LDA 对象。不幸的是，为了测试 150 多个主题，需要几个小时。

到目前为止，我发现我可以使用以下方法同时测试几个不同的集群大小：

library(topicmodels)
library(plyr)
library(foreach)
library(doMC)
registerDoMC(5) # use 5 cores

dtm # my documenttermmatrix

seq <- seq(200,500, by=50)

models <- llply(seq, function(d){LDA(dtm, d)}, .parallel=T)

Run Code Online (Sandbox Code Playgroud)

有没有办法并行化 LDA 函数，使其运行得更快（而不是一次运行多个 LDA）？

Answer 1

dwc*_*der 3

我不熟悉 LDA 函数，但假设您将语料库分成 16 个部分，并将每个部分放入一个名为的列表中corpus16list。

要并行运行它，您通常会执行如下操作：

library( doParallel )
cl <- makeCluster( 16 ) # for 16 processors
registerDoParallel( cl )


# now start the chains
nchains <- 16
my_k <- 6 ## or a vector with 16 elements
results_list <- foreach(i=1:nchains , 
                    .packages = c( 'topicmodels') %dopar% {
         result <- LDA(corpus16list[[i]], k=my_k ,  control = my_control)}, .progress = "text"))


         return(result) }

Run Code Online (Sandbox Code Playgroud)

结果是results_list，它是一个包含 16 个链的 16 个输出的列表。您可以根据需要加入它们，或者.combine在 foreach 中使用函数（这超出了本问题的范围）。

您可以使用i发送不同的值control、k或任何您需要的值。

该代码应该可以在 Windows 和 Linux 上运行，并且可以使用您需要的内核数。

归档时间：	11 年前
查看次数：	2140 次
最近记录：	5 年，11 月前