小编Aeg*_* Wu的帖子

r 中的 LDA 错误:输入矩阵的每一行都需要包含至少一个非零条目

我是文本挖掘主题的初学者。当我在具有 996165 个观测值的庞大数据集上运行 LDA() 时,它显示以下错误:

LDA(dtm, k, method = "Gibbs", control = list(nstart = nstart, : 输入矩阵的每一行都需要包含至少一个非零条目。

我很确定我的语料库中也没有缺失值。“DocumentTermMatrix”和“simple_triplet_matrix”的表是:

table(is.na(dtm[[1]]))
#FALSE 
#57100956 

table(is.na(dtm[[2]]))
#FALSE 
#57100956 
Run Code Online (Sandbox Code Playgroud)

有点困惑“57100956”是怎么来的。但是由于我的数据集非常大,我不知道如何检查为什么会发生此错误。我的 LDA 命令是:

ldaOut<-LDA(dtm,k, method="Gibbs", control=list(nstart=nstart, seed = seed, best=best, burnin = burnin, iter = iter, thin=thin))
Run Code Online (Sandbox Code Playgroud)

谁能提供一些见解?谢谢。

text-mining

6
推荐指数
1
解决办法
7057
查看次数

如何从文档项矩阵中提取单词频率?

我正在使用Python进行LDA分析.我使用以下代码创建了一个文档术语矩阵

corpus = [dictionary.doc2bow(text) for text in texts].
Run Code Online (Sandbox Code Playgroud)

是否有任何简单的方法可以计算整个语料库中的单词频率.由于我的词典是term-id列表,我想我可以将词频与term-id匹配.

python dictionary text-mining

0
推荐指数
1
解决办法
5725
查看次数

标签 统计

text-mining ×2

dictionary ×1

python ×1