如何在无监督聚类期间在sklearn中选择TfidfVectorizer中的参数

use*_*396 1 python nlp tf-idf scikit-learn tfidfvectorizer

TfidfVectorizer提供了一种简单的方法来编码和将文本转换为矢量.

我的问题是如何选择适当的参数值,如min_df,max_features,smooth_idf,sublinear_tf?

更新:

也许我应该在这个问题上提出更多细节:

如果我使用大量文本进行无监督聚类,该怎么办?我没有任何文本标签,我不知道可能有多少集群(这实际上是我想弄清楚的)

Dav*_*sta 6

例如,如果您在分类任务中使用这些向量,则可以更改这些参数(当然还有分类器的参数),并查看哪些值可以提供最佳性能.

您可以使用GridSearchCV和Pipeline对象轻松地在sklearn中执行此操作

pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(stop_words=stop_words)),
    ('clf', OneVsRestClassifier(MultinomialNB(
        fit_prior=True, class_prior=None))),
])
parameters = {
    'tfidf__max_df': (0.25, 0.5, 0.75),
    'tfidf__ngram_range': [(1, 1), (1, 2), (1, 3)],
    'clf__estimator__alpha': (1e-2, 1e-3)
}

grid_search_tune = GridSearchCV(pipeline, parameters, cv=2, n_jobs=2, verbose=3)
grid_search_tune.fit(train_x, train_y)

print("Best parameters set:")
print grid_search_tune.best_estimator_.steps
Run Code Online (Sandbox Code Playgroud)