如何在Python中使用保存模型进行预测

Question

如何在Python中使用保存模型进行预测

Asa*_*sad 2 nltk prediction python-2.7 scikit-learn

我正在 python 中进行文本分类，我想在生产环境中使用它来对新文档进行预测。我正在使用 TfidfVectorizer 来构建 bagofWord。

我在做：

X_train = vectorizer.fit_transform(clean_documents_for_train, classLabel).toarray()

Run Code Online (Sandbox Code Playgroud)

然后我进行交叉验证并使用 SVM 构建模型。之后我保存模型。

为了对我的测试数据进行预测，我在另一个脚本中加载该模型，其中我有相同的 TfidfVectorizer，并且我知道我无法对测试数据进行 fit_transform 。我要做：

X_test = vectorizer.transform(clean_test_documents, classLabel).toarray()

Run Code Online (Sandbox Code Playgroud)

但这是不可能的，因为我必须先适应。我知道有办法。我可以加载我的训练数据并fit_transform像构建模型期间那样执行，但我的训练数据非常大，每次我想要预测时我都无法做到这一点。所以我的问题是：

有没有办法可以在我的测试数据上使用 TfidfVectorizer 并执行预测？
还有其他方法可以进行预测吗？

Answer 1

YS-*_*S-L 5

矢量化器是模型的一部分。当你保存训练好的SVM模型时，你还需要保存相应的向量化器。

为了使这更方便，您可以使用Pipeline构造一个“适合”对象，该对象表示将原始输入转换为预测输出所需的步骤。在本例中，管道由 Tf-Idf 提取器和 SVM 分类器组成：

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import svm
from sklearn.pipeline import Pipeline

vectorizer = TfidfVectorizer()
clf = svm.SVC()
tfidf_svm = Pipeline([('tfidf', vectorizer), ('svc', clf)])

documents, y = load_training_data()
tfidf_svm.fit(documents, y)

Run Code Online (Sandbox Code Playgroud)

这样，只需要保存一个对象：

from sklearn.externals import joblib
joblib.dump(tfidf_svm, 'model.pkl')

Run Code Online (Sandbox Code Playgroud)

要将模型应用于测试文档，请加载经过训练的管道，然后predict像往常一样使用其函数，并将原始文档作为输入。

归档时间：	10 年，1 月前
查看次数：	5519 次
最近记录：	7 年，9 月前