alw*_*ons 5 r special-characters
我正在尝试删除字符串中的一些非常特殊的字符。我读过其他文章,例如:
但是这些不是我想要的。
可以说我的字符串如下:
s = "who are í ½í¸€ bringing?"
Run Code Online (Sandbox Code Playgroud)
我试过以下:
test = tm_map(s, function(x) iconv(enc2utf8(x), sub = "byte"))
test = iconv(s, 'UTF-8', 'ASCII')
Run Code Online (Sandbox Code Playgroud)
以上都不起作用。
编辑: 我正在寻找一个通用的解决方案!我不能(并且最好不要)手动识别所有特殊字符。
这些表情符号也可能导致这些非常特殊的字符(并非100%肯定)
请帮助或指导我找到正确的职位。谢谢!
所以,我将继续回答,因为我相信这就是你要找的:
> s = "who are í ½í¸€ bringing?"
> rmSpec <- "í|½|€" # The "|" designates a logical OR in regular expressions.
> s.rem <- gsub(rmSpec, "", s) # gsub replace any matches in remSpec and replace them with "".
> s.rem
[1] "who are ¸ bringing?"
Run Code Online (Sandbox Code Playgroud)
现在,这确实有一个警告,您必须在rmSpec变量中手动定义特殊字符。不确定您是否知道要删除哪些特殊字符,或者您是否正在寻找更通用的解决方案。
编辑:
所以看起来你几乎已经有了它iconv,你只是错过了这个sub论点。见下文:
> s
[1] "who are í ½í¸€ bringing?"
> s2 <- iconv(s, "UTF-8", "ASCII", sub = "")
> s2
[1] "who are bringing?"
Run Code Online (Sandbox Code Playgroud)