tor*_*ino 2 regex dictionary r text-mining tm
我正在使用R的tm
包来使用字典方法获取字频.我想找到所有以"esque"结尾的单词,无论它们拼写为"abcd-esque","abcdesque"还是"abcd esque"(因为我的语料库中存在所有不同的拼写).如何为此创建正则表达式?这就是我到目前为止所拥有的.任何帮助/提示将不胜感激.
text <- Corpus(DirSource("txt/"))
text <- tm_map(text,tolower)
text <- tm_map(text,stripWhitespace)
dtm.text <- DocumentTermMatrix(text)
list<-inspect(
DocumentTermMatrix(text,list(dictionary = c("rose", "green", "esque")))
)
Run Code Online (Sandbox Code Playgroud)
inspect(dtm.text[, grepl("esque$", dtm.text$dimnames$Terms)])
Run Code Online (Sandbox Code Playgroud)
由于旁注tolower
不适用于当前版本的tm
.您应该使用contetn_transformer
:
tm_map(text, content_transformer(tolower))
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
1911 次 |
最近记录: |