在R中找到"near duplicatelicates"字符串

Jor*_*elf 3 nlp r text-analysis sentiment-analysis

我正在使用R来构建情感分析工具,我遇到了一些重复问题.数据的主要来源是Twitter,看起来许多人通过在每条推文的末尾添加一些随机文本来绕过Twitter自己的垃圾邮件过滤器.例如

Click xxxxx to buy the amazing xxxxx for FREE ugjh
Run Code Online (Sandbox Code Playgroud)

我在最后得到了大量带有不同随机字符串的精确推文.它们来自同一用户或来自不同用户.

是否有任何函数duplicated或者unique哪些函数返回2个字符串的接近程度,如果它们高于某个%,则忽略它们?

我知道这样做最终会删除那些说完全相同的人的真实推文,比如说

I love xxxx !
Run Code Online (Sandbox Code Playgroud)

但是我将来会处理这个问题.

任何正确方向的提示将非常感谢!

Tyl*_*ker 6

agrep上面提到过.以下是您所解释的示例.通过改变max.distance我们可以调整被踢的东西:

comp <- "Click xxxxx to buy the amazing xxxxx for FREE ugjh"
w <- "I love xxxx !"
x <- "Click xxxxx to purchase the awesome xxxxx for FREE bmf"

agrep(comp, c(x, w), max.distance =.4, value = TRUE)
agrep(comp, c(x, w), max.distance =.9, value = TRUE)
Run Code Online (Sandbox Code Playgroud)