小编par*_*rth的帖子

从 R 语料库中删除无意义的单词

我正在使用tmwordcloud在 R 中执行一些基本的文本挖掘。正在处理的文本包含许多无意义的单词,如 asfdg、aawptkr,我需要过滤这些单词。我找到的最接近的解决方案是使用library(qdapDictionaries)和构建自定义函数来检查单词的有效性。

library(qdapDictionaries)
is.word  <- function(x) x %in% GradyAugmented

# example
> is.word("aapg")
[1] FALSE
Run Code Online (Sandbox Code Playgroud)

使用的其余文本挖掘是:

curDir <- "E:/folder1/"  # folder1 contains a.txt, b.txt
myCorpus <- VCorpus(DirSource(curDir))
myCorpus <- tm_map(myCorpus, removePunctuation)
myCorpus <- tm_map(myCorpus, removeNumbers)

myCorpus <- tm_map(myCorpus,foo) # foo clears meaningless words from corpus
Run Code Online (Sandbox Code Playgroud)

该问题is.word()适用于处理数据帧,但如何将其用于语料库处理?

谢谢

r tm

3
推荐指数
1
解决办法
3520
查看次数

标签 统计

r ×1

tm ×1