Python:GridSearchCV 花费太长时间才能完成运行

Ben*_*iaz 5 python machine-learning scikit-learn cross-validation data-science

我正在尝试进行网格搜索来优化我的模型,但执行时间太长。我的总数据集只有大约 15,000 个观察值,大约有 30-40 个变量。我成功地通过 gridsearch 运行了一个随机森林,这花了大约一个半小时,但现在我已经切换到 SVC,它已经运行了 9 个多小时,但仍然没有完成。以下是我的交叉验证代码示例:

from sklearn.model_selection import GridSearchCV
from sklearn import svm
from sklearn.svm import SVC

SVM_Classifier= SVC(random_state=7)



param_grid = {'C': [0.1, 1, 10, 100],
              'gamma': [1,0.1,0.01,0.001],
              'kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
              'degree' : [0, 1, 2, 3, 4, 5, 6]}

grid_obj = GridSearchCV(SVM_Classifier,
                        
                        return_train_score=True,
                        param_grid=param_grid,
                        scoring='roc_auc',
                        cv=3,
                       n_jobs = -1)

grid_fit = grid_obj.fit(X_train, y_train)
SVMC_opt = grid_fit.best_estimator_

print('='*20)
print("best params: " + str(grid_obj.best_estimator_))
print("best params: " + str(grid_obj.best_params_))
print('best score:', grid_obj.best_score_)
print('='*20)

Run Code Online (Sandbox Code Playgroud)

我已经将交叉验证从 10 个减少到 3 个,并且我使用 n_jobs=-1,因此我正在调动所有核心。我还缺少什么可以在这里做的来加快这个过程吗?

use*_*849 4

不幸的是,SVC 的拟合算法最多是 O(n^2),所以它确实非常慢。即使文档建议使用超过约 10k 个样本的 LinearSVC,您就在这个范围内。

也许尝试增加内核cache_size。我建议对单个 SVC 进行计时,以适应不同的缓存大小,看看是否可以获得一些好处。

编辑:顺便说一句,您不必要地计算大量适合不同degree参数值的 SVC,这些值将被忽略(除了 之外的所有内核poly)。我建议将运行poly与其他内核分开,您将节省大量时间。