NLTK RegexpTokenizer：仅保留随机文本中的字符的正则表达式

Question

我使用tokenizer = RegexpTokenizer(r'\w+')它保留字母数字字符但是如何组合正则表达式来删除仅保留大于长度 2 的字符的所有其他元素

下面是数据框中的一行，其中包含随机文本

0 [ANOTHER 2'' F/P SAMPLE 01:52 ...A13232 / AS OUTPUT MSG...

Answer 1

我认为你需要找到以下单词len>2：

RegexpTokenizer(r'\w{3,}')

或者如果只需要字母：

RegexpTokenizer(r'[a-zA-Z]{3,}')