我正在尝试建立scikit学习管道来简化我的工作。我面临的问题是我不知道哪种算法(随机森林,朴素贝叶斯,决策树等)最适合,因此我需要尝试每种算法并比较结果。但是,流水线一次只采用一种算法吗?例如,下面的管道仅采用SGDClassifier()作为算法。
pipeline = Pipeline([
('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', SGDClassifier()),])
Run Code Online (Sandbox Code Playgroud)
如果我想比较不同的算法该怎么办?我可以做这样的事情吗?
pipeline = Pipeline([
('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', SGDClassifier()),
('classifier', MultinomialNB()),])
Run Code Online (Sandbox Code Playgroud)
我不想将其分为两个管道,因为数据的预处理非常耗时。
提前致谢!