我有一个文本分类问题,其中有两种功能:
两种类型的特征均从文本的标记中提取。我只想运行一次令牌化,然后将这些令牌传递给CountVectorizer和其他存在功能提取器。因此,我想将标记列表传递给CountVectorizer,但只接受字符串作为某些样本的表示。有没有办法传递令牌数组?
tokenize scikit-learn
scikit-learn ×1
tokenize ×1