带有 tfidf 和计数向量化器的 gridsearchcv

Question

带有 tfidf 和计数向量化器的 gridsearchcv

Abt*_*btc 5 python machine-learning sentiment-analysis scikit-learn gridsearchcv

我想使用 GridSearchCV 进行参数调整。是否还可以使用 GridSearchCV 检查 CountVectorizer 还是 TfidfVectorizer 效果最好？我的想法：

pipeline = Pipeline([
           ('vect', TfidfVectorizer()),
           ('clf', SGDClassifier()),
])
parameters = {
'vect__max_df': (0.5, 0.75, 1.0),
'vect__max_features': (None, 5000, 10000, 50000),
'vect__ngram_range': ((1, 1), (1, 2), (1,3),  
'tfidf__use_idf': (True, False),
'tfidf__norm': ('l1', 'l2', None),
'clf__max_iter': (20,),
'clf__alpha': (0.00001, 0.000001),
'clf__penalty': ('l2', 'elasticnet'),
'clf__max_iter': (10, 50, 80),
}

grid_search = GridSearchCV(pipeline, parameters, n_jobs=-1, verbose=1, cv=5)

Run Code Online (Sandbox Code Playgroud)

我的想法：CountVectorizer 与 TfidfVectorizer 相同，其中 use_idf=False 且 normalize=None。如果 GridSearchCV 给出这些参数的最佳结果，那么 CountVectorizer 是最佳选择。那是对的吗？

先感谢您：）

Answer 1

yat*_*atu 4

将给定步骤及其相应名称包含在中后Pipeline，您可以从参数网格访问它，并在网格中添加其他参数（在本例中为矢量化器）。您还可以在单个管道中拥有网格列表：

from sklearn.feature_extraction.text import CountVectorizer

pipeline = Pipeline([
           ('vect', TfidfVectorizer()),
           ('clf', SGDClassifier()),
])
parameters = [{
    'vect__max_df': (0.5, 0.75, 1.0),
    'vect__max_features': (None, 5000, 10000, 50000),
    'vect__ngram_range': ((1, 1), (1, 2), (1,3),)  
    'tfidf__use_idf': (True, False),
    'tfidf__norm': ('l1', 'l2', None),
    'clf__max_iter': (20,),
    'clf__alpha': (0.00001, 0.000001),
    'clf__penalty': ('l2', 'elasticnet'),
    'clf__max_iter': (10, 50, 80)
},{
    'vect': (CountVectorizer(),)
    # count_vect_params...
    'clf__max_iter': (20,),
    'clf__alpha': (0.00001, 0.000001),
    'clf__penalty': ('l2', 'elasticnet'),
    'clf__max_iter': (10, 50, 80)
}]

grid_search = GridSearchCV(pipeline, parameters)

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，4 月前
查看次数：	5900 次
最近记录：	5 年，3 月前