你会如何使用VotingClassifier为Sklearn做RandomizedSearchCV?

use*_*526 3 classification machine-learning scikit-learn grid-search

我正在尝试调整我的投票分类器.我想在Sklearn中使用随机搜索.但是,为什么我可以为我的投票分类器设置参数列表,因为我目前使用两种算法(不同的树算法)?我是否必须单独运行随机搜索并在以后的投票分类器中将它们组合在一起?

有人可以帮忙吗?代码示例将受到高度赞赏:)

谢谢!

Gui*_*sch 15

您可以完美结合两者的VotingClassifier使用RandomizedSearchCV.无需单独运行它们.请参阅文档:http://scikit-learn.org/stable/modules/ensemble.html#using-the-votingclassifier-with-gridsearch

诀窍是在params列表前面加上估算器名称.例如,如果您已创建了一个RandomForest估算器,并且您已创建它,('rf',clf2)则可以在表单中设置其参数<name__param>.具体示例:rf__n_estimators: [20,200],因此您可以参考特定的估算器并设置值以测试特定的参数.

准备测试可执行代码示例;)

import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.grid_search import RandomizedSearchCV

X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
y = np.array([1, 1, 1, 2, 2, 2])

clf1 = DecisionTreeClassifier()
clf2 = RandomForestClassifier(random_state=1)

params = {'dt__max_depth': [5, 10], 'rf__n_estimators': [20, 200],}


eclf = VotingClassifier(estimators=[('dt', clf1), ('rf', clf2)], voting='hard')

random_search = RandomizedSearchCV(eclf, param_distributions=params,n_iter=4)
random_search.fit(X, y)
print(random_search.grid_scores_)
Run Code Online (Sandbox Code Playgroud)