Nat*_*ano 5 python nlp scikit-learn
我正在使用来自sklearn的CountVectorizer ...寻找提供停用词列表并将计数向量化器应用于(1,3)的ngram_range.
从我所知道的,如果一个词 - 说"我" - 在停止词的列表中,那么它就不会被看到更高的ngrams,即"告诉我"不会是一个特征.有没有办法可以指定类似"只在ngram为1时考虑停用词"的方法?
你至少有2个选择:
将 2 种特征与FeatureUnion结合起来:一种用于 (1,1) 的 ngram_range(带停用词),一种用于 (2,3) 的 ngram_range(不带停用词)
(更高效,但更难实现和使用)实现您自己的分析器,仅检查一元组是否存在于停用词列表中;请参阅此答案中的示例代码示例。