多个scikit学习管道的行为异常

Question

多个scikit学习管道的行为异常

Sue*_*imh 5 python pipeline scikit-learn

我正在使用sklearn训练模型，我的训练序列需要运行两个不同的特征提取管道。

出于某种原因，每个管道都可以毫无问题地拟合数据，并且当它们顺序出现时，它们也可以转换数据而没有问题。

但是，在已安装第二条管线之后调用第一条管线时，第一条管线已更改，这会导致尺寸不匹配错误。

在下面的代码中，您可以重新创建问题（我已对其进行了大幅简化，实际上我的两个管道使用了不同的参数，但这是最小可重复的示例）。

from sklearn.pipeline import Pipeline
from sklearn.decomposition import TruncatedSVD
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

vectorizer = CountVectorizer()

data1 = ['foo bar', 'a foo bar duck', 'goose goose']
data2 = ['foo', 'duck duck swan', 'goose king queen goose']

pipeline1 = Pipeline([('vec', vectorizer),('svd', TruncatedSVD(n_components = 3))]).fit(data1)

print(pipeline1.transform(data1))

# Works fine

pipeline2 = Pipeline([('vec', vectorizer),('svd', TruncatedSVD(n_components = 3))]).fit(data2)

print(pipeline2.transform(data2))

# Works fine

print(pipeline1.transform(data1))

# ValueError: dimension mismatch

Run Code Online (Sandbox Code Playgroud)

显然，“ pipeline2”的拟合在某种程度上干扰了“ pipeline1”，但我不知道为什么。我希望能够同时使用它们。

Answer 1

CoM*_*tel 3

会发生什么：

正如您vectorizer首先定义的那样，会发生以下情况：

你创造vectorizer
你适合第一条管道：
- 向量化器已安装，输出暗淡为 (3,4)，例如 3 个元素，4 个单词：foo、bar、duck、goose
- svd 适合有 4 列作为输入
你适合第二条管道：
- 再次安装矢量化器，这次使用 6 个单词（例如列）作为输出：foo、duck、swan、goose、king、queen
- 另一个 svd 已安装，此处不相关
您回调第一个管道：
- 矢量化器输出一个 (3,6) 矩阵，使用最后一次拟合的单词，例如第二个管道
- svd 已适合接受 4 列作为输入，引发异常。

如何验证这一点：

vectorizer = CountVectorizer()

data1 = ['foo bar', 'a foo bar duck', 'goose goose']
data2 = ['foo', 'duck duck swan', 'goose king queen goose']

pipeline1 = Pipeline([('vec', vectorizer)]).fit(data1)
print(pipeline1.transform(data1).shape)

Run Code Online (Sandbox Code Playgroud)

(3, 4)

# Works fine
pipeline2 = Pipeline([('vec', vectorizer)]).fit(data2)
print(pipeline2.transform(data2).shape)

Run Code Online (Sandbox Code Playgroud)

(3, 6)

# Works fine

# vectorizer = CountVectorizer()
print(pipeline1.transform(data1).shape)

Run Code Online (Sandbox Code Playgroud)

(3, 6)

如何修复它：

您只需在管道中包含矢量化器的定义，如下所示：

from sklearn.pipeline import Pipeline
from sklearn.decomposition import TruncatedSVD
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd


data1 = ['foo bar', 'a foo bar duck', 'goose goose']
data2 = ['foo', 'duck duck swan', 'goose king queen goose']

pipeline1 = Pipeline([('vec', CountVectorizer()),('svd', TruncatedSVD(n_components = 3))]).fit(data1)

print(pipeline1.transform(data1))

# Works fine

pipeline2 = Pipeline([('vec', CountVectorizer()),('svd', TruncatedSVD(n_components = 3))]).fit(data2)

print(pipeline2.transform(data2))

# Works fine

print(pipeline1.transform(data1))

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，6 月前
查看次数：	37 次
最近记录：	6 年，6 月前

多个scikit学习管道的行为异常

会发生什么 ：

如何修复它：

会发生什么：