结合scikit-learn中的特征提取类

Dan*_*kov 16 python machine-learning feature-extraction scikit-learn

我正在使用sklearn.pipeline.Pipeline链接特征提取器和分类器.有没有办法sklearn.feature_selection.text并行组合多个特征选择类(例如来自哪些)并加入它们的输出?

我的代码现在看起来如下:

pipeline = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', SGDClassifier())])
Run Code Online (Sandbox Code Playgroud)

它导致以下结果:

vect -> tfidf -> clf
Run Code Online (Sandbox Code Playgroud)

我希望能够指定一个如下所示的管道:

vect1 -> tfidf1 \
                 -> clf
vect2 -> tfidf2 /
Run Code Online (Sandbox Code Playgroud)

ogr*_*sel 17

最近在scikit-learn的主分支中实现了这个名称FeatureUnion:

http://scikit-learn.org/dev/modules/pipeline.html#feature-union

  • 是的,在我问了这个问题之后,我在http://blog.kaggle.com/2012/09/26/impermium-andreas-blog/上看到了它 (2认同)