lol*_*ter 7 python numpy machine-learning scikit-learn
我希望能够在sklearn中的RandomizedSearchCV构造中使用管道.但是现在我认为只支持估算器.以下是我希望能够做到的一个例子:
import numpy as np
from sklearn.grid_search import RandomizedSearchCV
from sklearn.datasets import load_digits
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
# get some data
iris = load_digits()
X, y = iris.data, iris.target
# specify parameters and distributions to sample from
param_dist = {'C': [1, 10, 100, 1000],
'gamma': [0.001, 0.0001],
'kernel': ['rbf', 'linear'],}
# create pipeline with a scaler
steps = [('scaler', StandardScaler()), ('rbf_svm', SVC())]
pipeline = Pipeline(steps)
# do search
search = RandomizedSearchCV(pipeline,
param_distributions=param_dist, n_iter=50)
search.fit(X, y)
print search.grid_scores_
Run Code Online (Sandbox Code Playgroud)
如果您只是这样运行,您将收到以下错误:
ValueError: Invalid parameter kernel for estimator Pipeline
Run Code Online (Sandbox Code Playgroud)
在sklearn中有一个很好的方法吗?
Art*_*lev 12
RandomizedSearchCV,还有GridSearchCV,做支持管道(事实上,他们是独立的实现,和管道的设计等同于通常的分类).
如果您认为应该搜索哪些参数,那么问题的关键非常简单.由于管道由许多对象(几个变换器+分类器)组成,因此人们可能希望为分类器和变换器找到最佳参数.因此,您需要以某种方式区分从哪里获取/设置属性.
所以你需要做的就是说你想要找到一个值,比如说,不仅仅是一些抽象gamma(管道根本没有),而是gamma管道的分类器,在你的情况下调用rbf_svm(这也是合理的)需要名字).这可以使用双下划线语法来实现,在sklearn中广泛用于嵌套模型:
param_dist = {
'rbf_svm__C': [1, 10, 100, 1000],
'rbf_svm__gamma': [0.001, 0.0001],
'rbf_svm__kernel': ['rbf', 'linear'],
}
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
3872 次 |
| 最近记录: |