小编use*_*874的帖子

主题模型:具有对数似然或困惑的交叉验证

我正在使用主题建模来集群文档.我需要提出最佳的主题数字.因此,我决定使用主题10,20,... 60进行十倍交叉验证.

我已将我的语料库分成十批,并留出一批用于保留集.我使用9个批次(总共180个文档)运行潜在的dirichlet分配(LDA),主题为10到60.现在,我必须计算保持集的困惑或记录可能性.

我从CV的一个讨论会上找到了这段代码.我真的不明白下面的几行代码.我有dtm矩阵使用holdout set(20个文档).但我不知道如何计算这个坚持集的困惑或记录可能性.


问题:

  1. 任何人都可以向我解释seq(2,100,by = 1)在这里意味着什么?那么,AssociatedPress [21:30]是什么意思?这里有什么功能(k)?

    best.model <- lapply(seq(2, 100, by=1), function(k){ LDA(AssociatedPress[21:30,], k) })
    
    Run Code Online (Sandbox Code Playgroud)
  2. 如果我想计算称为dtm的保持集的困惑或记录可能性,是否有更好的代码?我知道有perplexity()logLik()函数但是因为我是新手我无法弄清楚如何使用我的保持矩阵(称为dtm)来实现它.

  3. 如何使用包含200个文档的语料库进行十倍交叉验证?是否存在我可以调用的现有代码?我找到caret了这个目的,但也无法弄明白.

r topic-modeling cross-validation tm

22
推荐指数
2
解决办法
2万
查看次数

标签 统计

cross-validation ×1

r ×1

tm ×1

topic-modeling ×1