Scikit - 更改阈值以创建多个混淆矩阵

Question

Scikit - 更改阈值以创建多个混淆矩阵

sap*_*ico 8 classification threshold confusion-matrix random-forest scikit-learn

我正在建立一个分类器,通过贷款俱乐部数据,并选择最好的X贷款.我训练了一个随机森林,并创建了通常的ROC曲线,混淆矩阵等.

混淆矩阵将分类器的预测(森林中树木的多数预测)作为参数.但是,我希望在不同的阈值下打印多个混淆矩阵,知道如果我选择10%最佳贷款,20%最佳贷款等会发生什么.

我从阅读其他问题中知道,改变门槛通常是一个坏主意,但有没有其他方法可以看到这些情况下的混淆矩阵？(问题A)

如果我继续更改阈值,我应该假设这样做的最佳方法是预测问题然后手动阈值,将其传递给混淆矩阵？(问题B)

Answer 1

Dav*_*ale 9

答：在您的情况下，更改阈值是可以接受的，甚至可能是必要的。默认阈值为 50%，但从商业角度来看，即使 15% 的不还款概率也足以拒绝此类申请。

事实上，在信用评分中，在使用通用模型预测违约概率后，通常会为不同的产品条款或客户群设置不同的临界值（参见 Naeem Siddiqi 的“信用风险记分卡”第 9 章）。

乙。有两种方便的方法可以任意设置阈值alpha而不是 50%：

确实，predict_proba并将其阈值alpha手动或使用包装类（请参阅下面的代码）。如果您想在不重新拟合模型的情况下尝试多个阈值，请使用此选项。
在拟合模型之前更改class_weights为(alpha, 1-alpha)。

现在，包装器的示例代码：

import numpy as np
from sklearn.datasets import make_classification
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.base import BaseEstimator, ClassifierMixin
X, y = make_classification(random_state=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

class CustomThreshold(BaseEstimator, ClassifierMixin):
    """ Custom threshold wrapper for binary classification"""
    def __init__(self, base, threshold=0.5):
        self.base = base
        self.threshold = threshold
    def fit(self, *args, **kwargs):
        self.base.fit(*args, **kwargs)
        return self
    def predict(self, X):
        return (self.base.predict_proba(X)[:, 1] > self.threshold).astype(int)

rf = RandomForestClassifier(random_state=1).fit(X_train, y_train)
clf = [CustomThreshold(rf, threshold) for threshold in [0.3, 0.5, 0.7]]

for model in clf:
    print(confusion_matrix(y_test, model.predict(X_test)))

assert((clf[1].predict(X_test) == clf[1].base.predict(X_test)).all())
assert(sum(clf[0].predict(X_test)) > sum(clf[0].base.predict(X_test)))
assert(sum(clf[2].predict(X_test)) < sum(clf[2].base.predict(X_test)))

Run Code Online (Sandbox Code Playgroud)

它将针对不同的阈值输出 3 个混淆矩阵：

[[13  1]
 [ 2  9]]
[[14  0]
 [ 3  8]]
[[14  0]
 [ 4  7]]

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，1 月前
查看次数：	3329 次
最近记录：	7 年，11 月前