我在R中有一个向量语料库。我想删除该语料库中出现的所有电子邮件ID。电子邮件ID可以在语料库中的任何位置。说例如
1> "Could you mail me the Company policy amendments at xyz@gmail.com. Thank you."
2> "Please send me an invoice copy at abcdef@yahoo.co.in. Looking forward to your reply".
Run Code Online (Sandbox Code Playgroud)
所以在这里,我只希望从语料库中删除电子邮件ID“ xyz@gmail.com”和“ abcdef@yahoo.co.in”。
我尝试使用:
corpus <- tm_map(corpus,removeWords,"\w*gmail.com\b")
corpus <- tm_map(corpus,removeWords,"\w*yahoo.co.in\b")
Run Code Online (Sandbox Code Playgroud)