小编Sci*_*bby的帖子

LDA TopicModels生成数字列表而不是术语

请耐心等待,因为我对此非常陌生,正在开设证书课程的课程.

我有通过从Pubmed和Embase数据库中检索文献计量记录获得的.csv数据集.有1034行.有几列,但是,我试图从一列创建主题模型,Abstract列和一些记录没有摘要​​.我已经完成了一些处理(删除停用词,标点符号等),并且能够对出现超过200次的单词进行条形图处理以及按等级创建"常用术语"列表,还可以运行与所选单词的单词关联.所以,似乎r在抽象字段中看到了单词本身.当我尝试使用topicmodels包创建主题模型时,我的问题出现了.这是我正在使用的一些代码.

#including 1st 3 lines for reference
options(header = FALSE, stringsAsFactors = FALSE, FileEncoding = 
"latin1")
records <- read.csv("Combined.csv")
AbstractCorpus <- Corpus(VectorSource(records$Abstract))

AbstractTDM <- TermDocumentMatrix(AbstractCorpus)
library(topicmodels)
library(lda)
lda <- LDA(AbstractTDM, k = 8)
(term <- terms(lda, 6))
term <- (apply(term, MARGIN = 2, paste, collapse = ","))
Run Code Online (Sandbox Code Playgroud)

但是,我得到的主题输出如下.

Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 Topic 6 Topic 7 Topic 8

[1,] "499"   "733"   "390"   "833"   "17"    "413"   "719"   "392"  
[2,] "484"   "655"   "808"   "412"   "550" …
Run Code Online (Sandbox Code Playgroud)

r lda topicmodels

5
推荐指数
1
解决办法
656
查看次数

标签 统计

lda ×1

r ×1

topicmodels ×1