我正在尝试删除单字符和双字符标记。
这是一个例子:
toks <- tokens(c("This is a sentence. This is a second sentence."), remove_punct = TRUE)
toks <- tokens_select(toks, min_nchar=1L, max_nchar=2L, selection = "remove")
toks
结果:
来自 1 个文档的令牌。文本1 :
[1]“是”“一个”“是”“一个”
我希望得到不符合条件的代币,而不是符合条件的代币。
library(quanteda)
toks <- tokens(c("This is a sentence. This is a second sentence."), remove_punct = TRUE)
tokens_select(toks, min_nchar=3L)
Run Code Online (Sandbox Code Playgroud)