Scikit在向量化器中学习ngram_range的目的

Sar*_*air 13 scikit-learn

在mapvectorizer和TFidf矢量化器等矢量化器中使用ngram_range有什么用处.我的意思是ngram_range(1,1)用于unigram.它对ngram_range(1,2)和(2,2)意味着什么?

And*_*ler 14

ngram_range(1,2)表示unigrams和bigrams,(2,2)表示只有bigrams ..你不觉得文档字符串是否足够精确:

要提取的不同n-gram的n值范围的下边界和上边界.将使用n的所有值,使得min_n <= n <= max_n.

您如何更改文档字符串以获得更多帮助?

  • 一个非常晚的评论,但Andreas的第一句话给出了一个完美的例子,可以帮助新人快速学习,因此如果将这样的例子添加到文档字符串,它将使新手的生活更好一点.谢谢. (6认同)