我有以下正则表达式分裂任何空格或标点符号.如何从中排除1个或多个标点字符:punct:
?假设我想排除撇号和逗号.我知道我可以明确使用[all punctuation marks in here]
而不是,[[:punct:]]
但我希望有一个排除方法.
X <- "I'm not that good at regex yet, but am getting better!"
strsplit(X, "[[:space:]]|(?=[[:punct:]])", perl=TRUE)
[1] "I" "'" "m" "not" "that" "good" "at" "regex" "yet"
[10] "," "" "but" "am" "getting" "better" "!"
Run Code Online (Sandbox Code Playgroud) 在 RStudio 中启动时。在做任何事情之前,我在控制台窗口上看到以下错误显示:
Error: STRING_ELT() can only be applied to a 'character vector', not a 'raw'
Run Code Online (Sandbox Code Playgroud)
我正在使用 Windows 10 OS R 版本 3.2.2
我怎样才能摆脱这个消息?如何确定此错误的来源?我认为这可能与之前的会话有关,但我无法确定发生此错误的模式。
我想通过以下方式使用removeWords
(stopwords("english")
)函数:corpus <- tm_map(corpus,removeWords, stopwords("english"))
但是有些像"不"这样的词,以及其他我想保留的否定.
是否可以使用该removeWords, stopwords("english")
功能但如果指定,则排除该列表中的某些单词?
我怎么能阻止删除"不"例如?
(二级)是否可以将此类控制列表设置为所有"否定"?
我宁愿不使用我感兴趣的停止列表中的单词来创建我自己的自定义列表.