如何使用 quanteda::tokens_select() 删除单字符和双字符标记

ron*_*zen 2 r quanteda

我正在尝试删除单字符和双字符标记。

这是一个例子:

toks <- tokens(c("This is a sentence. This is a second sentence."), remove_punct = TRUE)

toks <- tokens_select(toks, min_nchar=1L, max_nchar=2L, selection = "remove")

toks

结果:

来自 1 个文档的令牌。文本1 :

[1]“是”“一个”“是”“一个”

我希望得到不符合条件的代币,而不是符合条件的代币。

Kip*_*čys 5

library(quanteda)

toks <- tokens(c("This is a sentence. This is a second sentence."), remove_punct = TRUE)
tokens_select(toks, min_nchar=3L)
Run Code Online (Sandbox Code Playgroud)

  • 这些也有效:`tokens_remove(toks, c("?", "??"))` `tokens_keep(toks, min_nchar = 3)` (3认同)