我正在查看instagram用户名的数据字符串,我已经能够使用正则表达式删除几乎所有不必要的字符。我不知道如何删除单词尾部的“”。
我可以使用正则表达式删除所有其他特殊字符。我可以删除撇号而不是s,或者完全跳过它。
[1] "@kyrieirving’s" "@jaytatum0"
> follower.list <- gsub("[^[:alnum:][:blank:]@_]", "", follower.list)
Run Code Online (Sandbox Code Playgroud)
[1] "@kyrieirvings" "@jaytatum0"
Run Code Online (Sandbox Code Playgroud)
[1] "@kyrieirving" "@jaytatum0"
Run Code Online (Sandbox Code Playgroud)
用
['’]s\b|[^[:alnum:][:blank:]@_]
Run Code Online (Sandbox Code Playgroud)
请参阅正则表达式演示。
细节
['’]s\b-'或者’然后s在一个词的末尾| - 或者[^[:alnum:][:blank:]@_]- 除字母数字、水平空格@或_字符以外的任何字符R演示:
> x <- c("@kyrieirving’s", "@jaytatum0")
> gsub("['’]s\\b|[^[:alnum:][:blank:]@_]", "",x)
[1] "@kyrieirving" "@jaytatum0"
Run Code Online (Sandbox Code Playgroud)