小编Rob*_*oon的帖子

如何在管道中使用具有关联提取器的多个输入特征?

我正在使用 Scikit-learn 处理分类任务。我有一个数据集,其中每个观察都包含两个单独的文本字段。我想设置一个管道,其中每个文本字段都通过它自己的 TfidfVectorizer 并行传递,并且 TfidfVectorizer 对象的输出被传递给一个分类器。我的目标是能够使用 GridSearchCV 优化两个 TfidfVectorizer 对象的参数以及分类器的参数。

管道可能被描述如下:

Text 1 -> TfidfVectorizer 1 --------|
                                    +---> Classifier
Text 2 -> TfidfVectorizer 2 --------|
Run Code Online (Sandbox Code Playgroud)

我了解如何在不使用管道的情况下执行此操作(只需创建 TfidfVectorizer 对象并从那里开始工作),但是如何在管道中进行设置?

谢谢你的帮助,

抢。

scikit-learn

5
推荐指数
1
解决办法
1730
查看次数

标签 统计

scikit-learn ×1