更改随机森林分类器的阈值

Question

更改随机森林分类器的阈值

Dax*_*xHR 2 python machine-learning random-forest scikit-learn

我需要开发一个没有（或接近免费）假负值的模型。为此，我绘制了召回精度曲线并确定阈值应设置为 0.11

我的问题是，如何在模型训练时定义阈值？稍后在评估时定义它是没有意义的，因为它不会反映新数据。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

rfc_model = RandomForestClassifier(random_state=101)
rfc_model.fit(X_train, y_train)
rfc_preds = rfc_model.predict(X_test)


recall_precision_vals = []

for val in np.linspace(0, 1, 101):
    predicted_proba = rfc_model.predict_proba(X_test)
    predicted = (predicted_proba[:, 1] >= val).astype('int')
    
    recall_sc = recall_score(y_test, predicted)
    precis_sc = precision_score(y_test, predicted)

    recall_precision_vals.append({
        'Threshold': val,
        'Recall val': recall_sc,
        'Precis val': precis_sc
    })


recall_prec_df = pd.DataFrame(recall_precision_vals)

Run Code Online (Sandbox Code Playgroud)

有任何想法吗？

Answer 1

des*_*aut 7

如何在模型训练时定义阈值？

模型训练过程中根本没有门槛；随机森林是一个概率分类器，它只输出类别概率。确实需要阈值的“硬”类（即 0/1）在模型训练的任何阶段都不会产生或使用 - 仅在预测期间，即使如此，也仅在我们确实需要硬分类的情况下（并非总是案子）。请参阅预测类别或类别概率？更多细节。

实际上，RF 的 scikit-learn 实现实际上根本没有使用阈值，即使对于硬类预测也是如此；仔细阅读该方法的文档predict：

预测的类别是树中平均概率估计最高的类别

简而言之，这意味着实际的 RF 输出是[p0, p1]（假设二进制分类），该predict方法仅从中返回具有最高值的类，即如果为 0 p0 > p1，否则为 1。

假设您实际想要做的是返回 1 如果p1大于小于 0.5 的某个阈值，则您必须丢弃predict，predict_proba改为使用，然后操纵这些返回的概率以获得您想要的。这是一个带有虚拟数据的示例：

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification

X, y = make_classification(n_samples=1000, n_features=4,
                          n_informative=2, n_redundant=0,
                           n_classes=2, random_state=0, shuffle=False)

clf = RandomForestClassifier(n_estimators=100, max_depth=2,
                            random_state=0)

clf.fit(X, y)

Run Code Online (Sandbox Code Playgroud)

在这里，简单地使用predictfor，比如说，的第一个元素X，将给出 0：

clf.predict(X)[0] 
# 0

Run Code Online (Sandbox Code Playgroud)

因为

clf.predict_proba(X)[0]
# array([0.85266881, 0.14733119])

Run Code Online (Sandbox Code Playgroud)

即p0 > p1。

为了得到你想要的（即这里返回 1 级，因为p1 > threshold阈值为 0.11），这是你必须做的：

prob_preds = clf.predict_proba(X)
threshold = 0.11 # define threshold here
preds = [1 if prob_preds[i][1]> threshold else 0 for i in range(len(prob_preds))]

Run Code Online (Sandbox Code Playgroud)

之后，很容易看出，对于第一个预测样本，我们有：

preds[0]
# 1

Run Code Online (Sandbox Code Playgroud)

因为，如上所示，对于这个示例，我们有p1 = 0.14733119 > threshold.

归档时间：	6 年，7 月前
查看次数：	2223 次
最近记录：	5 年，4 月前