请耐心等待,因为我对此非常陌生,正在开设证书课程的课程.
我有通过从Pubmed和Embase数据库中检索文献计量记录获得的.csv数据集.有1034行.有几列,但是,我试图从一列创建主题模型,Abstract列和一些记录没有摘要.我已经完成了一些处理(删除停用词,标点符号等),并且能够对出现超过200次的单词进行条形图处理以及按等级创建"常用术语"列表,还可以运行与所选单词的单词关联.所以,似乎r在抽象字段中看到了单词本身.当我尝试使用topicmodels包创建主题模型时,我的问题出现了.这是我正在使用的一些代码.
#including 1st 3 lines for reference
options(header = FALSE, stringsAsFactors = FALSE, FileEncoding =
"latin1")
records <- read.csv("Combined.csv")
AbstractCorpus <- Corpus(VectorSource(records$Abstract))
AbstractTDM <- TermDocumentMatrix(AbstractCorpus)
library(topicmodels)
library(lda)
lda <- LDA(AbstractTDM, k = 8)
(term <- terms(lda, 6))
term <- (apply(term, MARGIN = 2, paste, collapse = ","))
Run Code Online (Sandbox Code Playgroud)
但是,我得到的主题输出如下.
Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 Topic 6 Topic 7 Topic 8
[1,] "499" "733" "390" "833" "17" "413" "719" "392"
[2,] "484" "655" "808" "412" "550" …Run Code Online (Sandbox Code Playgroud)