从 R 语料库中删除无意义的单词

Question

从 R 语料库中删除无意义的单词

我正在使用tm并wordcloud在 R 中执行一些基本的文本挖掘。正在处理的文本包含许多无意义的单词，如 asfdg、aawptkr，我需要过滤这些单词。我找到的最接近的解决方案是使用library(qdapDictionaries)和构建自定义函数来检查单词的有效性。

library(qdapDictionaries)
is.word  <- function(x) x %in% GradyAugmented

# example
> is.word("aapg")
[1] FALSE

Run Code Online (Sandbox Code Playgroud)

使用的其余文本挖掘是：

curDir <- "E:/folder1/"  # folder1 contains a.txt, b.txt
myCorpus <- VCorpus(DirSource(curDir))
myCorpus <- tm_map(myCorpus, removePunctuation)
myCorpus <- tm_map(myCorpus, removeNumbers)

myCorpus <- tm_map(myCorpus,foo) # foo clears meaningless words from corpus

Run Code Online (Sandbox Code Playgroud)

该问题is.word()适用于处理数据帧，但如何将其用于语料库处理？

谢谢

Answer 1

Ken*_*oit 6

如果您愿意尝试不同的文本挖掘包，那么这将起作用：

library(readtext)
library(quanteda)
myCorpus <- corpus(readtext("E:/folder1/*.txt"))

# tokenize the corpus
myTokens <- tokens(myCorpus, remove_punct = TRUE, remove_numbers = TRUE)
# keep only the tokens found in an English dictionary
myTokens <- tokens_select(myTokens, names(data_int_syllables))

Run Code Online (Sandbox Code Playgroud)

从那里你可以形成文档术语矩阵（在 quanteda 中称为“dfm”）进行分析，它只包含在字典中匹配的英语术语的特征（包含大约 130,000 个单词）。

归档时间：	8 年，7 月前
查看次数：	3520 次
最近记录：	8 年，7 月前