小编Mar*_*s D的帖子

在R中查找ngrams并在语料库中比较ngrams

我正在开始使用R中的tm软件包,所以请耐心等待,并为大文本墙做道歉.我创造了一个相当大的社会主义/共产主义宣传语料库,并希望提取新创造的政治术语(多个词,例如"斗争 - 批评 - 转型运动").

这是一个两步的问题,一个关于我的代码到目前为止,一个关于我应该如何继续.

第1步:为此,我想首先确定一些常见的ngram.但是我很早就陷入了困境.这是我一直在做的事情:

library(tm)
library(RWeka)

a  <-Corpus(DirSource("/mycorpora/1965"), readerControl = list(language="lat")) # that dir is full of txt files
summary(a)  
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english")) 
a <- tm_map(a, stemDocument, language = "english") 
# everything works fine so far, so I start playing around with what I have
adtm <-DocumentTermMatrix(a) 
adtm <- removeSparseTerms(adtm, 0.75)

inspect(adtm) 

findFreqTerms(adtm, lowfreq=10) # find terms …

Run Code Online (Sandbox Code Playgroud)

r text-mining n-gram tm

Mar*_*s D

lucky-day

11
推荐指数

1
解决办法

3万
查看次数