小编use*_*874的帖子

我正在使用主题建模来集群文档.我需要提出最佳的主题数字.因此,我决定使用主题10,20,... 60进行十倍交叉验证.

我已将我的语料库分成十批,并留出一批用于保留集.我使用9个批次(总共180个文档)运行潜在的dirichlet分配(LDA),主题为10到60.现在,我必须计算保持集的困惑或记录可能性.

我从CV的一个讨论会上找到了这段代码.我真的不明白下面的几行代码.我有dtm矩阵使用holdout set(20个文档).但我不知道如何计算这个坚持集的困惑或记录可能性.

问题:

任何人都可以向我解释seq(2,100,by = 1)在这里意味着什么？那么,AssociatedPress [21:30]是什么意思？这里有什么功能(k)？
```
best.model <- lapply(seq(2, 100, by=1), function(k){ LDA(AssociatedPress[21:30,], k) })
```
Run Code Online (Sandbox Code Playgroud)
如果我想计算称为dtm的保持集的困惑或记录可能性,是否有更好的代码？我知道有perplexity()和logLik()函数但是因为我是新手我无法弄清楚如何使用我的保持矩阵(称为dtm)来实现它.
如何使用包含200个文档的语料库进行十倍交叉验证？是否存在我可以调用的现有代码？我找到caret了这个目的,但也无法弄明白.

22
推荐指数

2
解决办法

2万
查看次数

r ×1

tm ×1

小编use_874的帖子