只忽略ngram_range = 1的停用词

Question

我正在使用来自sklearn的CountVectorizer ...寻找提供停用词列表并将计数向量化器应用于(1,3)的ngram_range.

从我所知道的,如果一个词 - 说"我" - 在停止词的列表中,那么它就不会被看到更高的ngrams,即"告诉我"不会是一个特征.有没有办法可以指定类似"只在ngram为1时考虑停用词"的方法？

Answer 1

你至少有2个选择：

将 2 种特征与FeatureUnion结合起来：一种用于 (1,1) 的 ngram_range（带停用词），一种用于 (2,3) 的 ngram_range（不带停用词）
（更高效，但更难实现和使用）实现您自己的分析器，仅检查一元组是否存在于停用词列表中；请参阅此答案中的示例代码示例。