小编use*_*903的帖子

如何存储TfidfVectorizer以供将来在scikit-learn中使用？

我有一个TfidfVectorizer矢量化文章集合,然后是特征选择.

vectroizer = TfidfVectorizer()
X_train = vectroizer.fit_transform(corpus)
selector = SelectKBest(chi2, k = 5000 )
X_train_sel = selector.fit_transform(X_train, y_train)

Run Code Online (Sandbox Code Playgroud)

现在,我想存储它并在其他程序中使用它.我不想TfidfVectorizer()在训练数据集上重新运行和选择特征选择器.我怎么做？我知道如何使模型持久使用,joblib但我想知道这是否与使模型持久化相同.

python tf-idf python-3.x scikit-learn joblib

use*_*903

2015 09-24

14
推荐指数

3
解决办法

9072
查看次数

scikit-learn的分类指标中的classification_report与f1_score

使用scikit-learn的评估指标评估二进制分类器的正确方法是什么？

给定y_test和y_pred作为黄金和预测标签，classification_report输出中的F1分数不应该与f1_score产生的分数相同吗？

这是我的方法：

print(classification_reprot(y_test, y_pred)

Run Code Online (Sandbox Code Playgroud)

给出下表：

         precision    recall  f1-score   support

      0       0.49      0.18      0.26       204
      1       0.83      0.96      0.89       877

avg / total       0.77      0.81      0.77      1081

Run Code Online (Sandbox Code Playgroud)

然而，