如何在任何分类器 Sklearn 中获得最有贡献的特征，例如 DecisionTreeClassifier knn 等

Question

如何在任何分类器 Sklearn 中获得最有贡献的特征，例如 DecisionTreeClassifier knn 等

Jib*_*hew 4 python machine-learning knn scikit-learn

我已经使用 KNN 分类器在数据集上尝试了我的模型，我想知道模型中最有贡献的特征以及预测中最有贡献的特征。

Answer 1

为了定性地了解哪个特征对分类影响更大，您可以n_feats一次使用一个特征（n_feats代表特征向量维度）执行分类，如下所示：

import numpy as np
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score

iris = datasets.load_iris()

clf = KNeighborsClassifier()

y =  iris.target
n_feats = iris.data.shape[1]

print('Feature  Accuracy')
for i in range(n_feats):
    X = iris.data[:, i].reshape(-1, 1)
    scores = cross_val_score(clf, X, y, cv=3)
    print(f'{i}        {scores.mean():g}')

Run Code Online (Sandbox Code Playgroud)

输出：

Feature  Accuracy
0        0.692402
1        0.518382
2        0.95384
3        0.95384

Run Code Online (Sandbox Code Playgroud)

这些结果表明分类以特征 2 和 3 为主。

您可以采用另一种方法，将X = iris.data[:, i].reshape(-1, 1)上面的代码替换为：

    X_head = np.atleast_2d(iris.data[:, 0:i])
    X_tail = np.atleast_2d(iris.data[:, i+1:])
    X = np.hstack((X_head, X_tail))

Run Code Online (Sandbox Code Playgroud)

n_samples在这种情况下，您也正在执行分类。不同之处在于，第i个分类中使用的特征向量由除第 i个之外的所有特征组成。

示例运行：

Feature  Accuracy
0        0.973856
1        0.96732
2        0.946895
3        0.959967

Run Code Online (Sandbox Code Playgroud)

从这些结果可以清楚地看出，当去掉第三个特征（索引 2 的特征）时，分类器的准确度最差，这与通过第一种方法获得的结果一致。

归档时间：	8 年，11 月前
查看次数：	5876 次
最近记录：	6 年，1 月前