正则表达式删除 R 中除数字、字母和空格之外的所有内容

tso*_*kis 1 regex r

如何删除 R 中这些讨厌的反斜杠?我搜索了网络和 stackoverflow,试图找到一种摆脱反斜杠的方法......没有运气。

我尝试了很多不同的方法,但我认为唯一可行的方法是使用正则表达式和 gsub() 删除不是数字、字母或空格的每个字符。这是我的字符串:

"_kMDItemOwnerUserID = 99kMDItemAlternateNames = ( \"(500) Days of Summer     (2009).m4v\")kMDItemAudioBitRate = 163kMDItemAudioChannelCount =     2kMDItemAudioEncodingApplication = \"HandBrake 0.9.4 2009112300\"kMDItemCodecs =     ( \"H.264\", AAC, \"QuickTime Text\")"
Run Code Online (Sandbox Code Playgroud)

正如您所看到的,它非常混乱,到处都是反斜杠和引号。最终,我想做的是提取电影名称:“(500) Days of Summer (2009)”。

什么是可以匹配除数字、字母和空格之外的所有内容的正则表达式?

预先非常感谢您的帮助。

Tim*_*sen 5

gsub("[^[:alnum:] ]", "", x)
Run Code Online (Sandbox Code Playgroud)

尝试替换字符类[^[:alnum:] ],它将匹配字母、数字或空格的任何字符:

完整代码:

x <- "_kMDItemOwnerUserID = 99kMDItemAlternateNames = ( \"(500) Days of Summer     (2009).m4v\")kMDItemAudioBitRate = 163kMDItemAudioChannelCount =     2kMDItemAudioEncodingApplication = \"HandBrake 0.9.4 2009112300\"kMDItemCodecs =     ( \"H.264\", AAC, \"QuickTime Text\")"

gsub("[^[:alnum:] ]", "", x)
[1] "kMDItemOwnerUserID  99kMDItemAlternateNames   500 Days of Summer     2009m4vkMDItemAudioBitRate  163kMDItemAudioChannelCount      2kMDItemAudioEncodingApplication  HandBrake 094 2009112300kMDItemCodecs       H264 AAC QuickTime Text"
Run Code Online (Sandbox Code Playgroud)