CountVectorizer和Out-Of-Vocabulary(OOV)令牌?

Jos*_*e G 5 python scikit-learn

现在我正在使用CountVectorizer提取功能.但是,我需要计算在拟合期间看不到的单词.

在变换期间,默认行为CountVectorizer是忽略在拟合期间未观察到的单词.但是我需要计算这次发生的次数!

我怎样才能做到这一点?

谢谢!

vum*_*sha 6

scikit-learn 中没有内置的方法来执行此操作,您需要编写一些额外的代码才能执行此操作。但是,您可以使用vocabulary_属性CountVectorizer来实现此目的。

  1. 缓存当前词汇
  2. 调用fit_transform
  3. 计算新词汇表和缓存词汇表的差异