R摆脱单引号字符

scr*_*Owl 0 regex encoding r utf

我有一个我正在尝试处理的字符串向量,但我无法摆脱一些奇怪的字符.

当我读取csv文件时,我使用了以下行:

train <- read.csv(file="files/file1.csv", header = T, encoding = "UTF-8")
Run Code Online (Sandbox Code Playgroud)

我用这一行试图摆脱标点符号:

train$var1 <- gsub("[[:punct:]]", " ", train$var1)
Run Code Online (Sandbox Code Playgroud)

但是在运行之后的检查中,我仍然看到奇怪的单引号,'...'和黑点像密码隐藏字符.这是输入:

dput(unique(unlist(var1List))[c(30242:30246, 30561, 30484)])
c("opportunity…", "about…", "expected…", "reward…", "us…", "‘as", 
"<U+25CF>")
Run Code Online (Sandbox Code Playgroud)

有什么建议摆脱这些人物?

Tim*_*ker 5

您可以删除除一组合法字符之外的所有内容:

train$var1 <- gsub("[^\\w\\s]", " ", train$var1, perl = TRUE)
Run Code Online (Sandbox Code Playgroud)

例如,会将不是字母数字或空白字符的每个字符更改为空格.