相关疑难解决方法(0)

将令牌传递给CountVectorizer

我有一个文本分类问题,其中有两种功能:

  • n克要素(由CountVectorizer提取)
  • 其他文字特征(例如,来自给定词典的单词的存在)。这些功能与n-gram不同,因为它们应该是从文本中提取的任何n-gram的一部分。

两种类型的特征均从文本的标记中提取。我只想运行一次令牌化,然后将这些令牌传递给CountVectorizer和其他存在功能提取器。因此,我想将标记列表传递给CountVectorizer,但只接受字符串作为某些样本的表示。有没有办法传递令牌数组?

tokenize scikit-learn

7
推荐指数
2
解决办法
5100
查看次数

标签 统计

scikit-learn ×1

tokenize ×1