scikit-learn中的不平衡

例如，在 SMOTE 中，要更改比率，您将输入字典，并且所有值必须大于或等于最大类（因为 SMOTE 是一种过采样技术）。我发现 SMOTE 更适合模型性能的原因可能是因为使用 RandomOverSampler 可以复制行，这意味着模型可以开始记忆数据而不是泛化到新数据。SMOTE 使用 K-Nearest-Neighbors 算法使“相似”数据点与采样数据点相似。

盲目使用 SMOTE，将比率设置为默认值（甚至类平衡）并不是一个好习惯，因为模型可能会过度拟合一个或多个少数类（即使 SMOTE 使用最近的邻居来进行“相似”的观察）。以与调整 ML 模型的超参数类似的方式，您将调整 SMOTE 算法的超参数，例如比率和/或 knn。以下是如何正确使用 SMOTE 的工作示例。

注意：不要在完整数据集上使用 SMOTE，这一点至关重要。您必须仅在训练集上使用 SMOTE（拆分后）。然后在您的 val/test 集上进行验证，看看您的 SMOTE 模型是否执行了您的其他模型。如果你不这样做，就会有数据泄露，你的模型本质上就是在作弊。

from collections import Counter
from sklearn.preprocessing import MinMaxScaler
from imblearn.pipeline import Pipeline
from imblearn.over_sampling import SMOTE
import numpy as np
from xgboost import XGBClassifier
import warnings

warnings.filterwarnings(action='ignore', category=DeprecationWarning)
sm = SMOTE(random_state=0, n_jobs=8, ratio={'class1':100, 'class2':100, 'class3':80, 'class4':60, 'class5':90})

### Train test split
X_train, X_val, y_train, y_val = train_test_split(X, y)

### Scale the data before applying SMOTE
scaler = MinMaxScaler().fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_val_scaled = scaler.transform(X_val)

### Resample X_train_scaled
X_train_resampled, y_train_resampled = sm.fit_sample(X_train_scaled, y_train)

print('Original dataset shape:', Counter(y_train))
print('Resampled dataset shape:', Counter(y_train_resampled))

### Train a model
xgbc_smote = XGBClassifier(n_jobs=8).fit(X_train_smote, y_train_smote,
                                         eval_set = [(X_val_scaled, y_val)],
                                         early_stopping_rounds=10)

### Evaluate the model
print('\ntrain\n')
print(accuracy_score(xgbc_smote.predict(np.array(X_train_scaled)), y_train))
print(f1_score(xgbc_smote.predict(np.array(X_train_scaled)), y_train))

print('\nval\n')
print(accuracy_score(xgbc_smote.predict(np.array(X_val_scaled)), y_val))
print(f1_score(xgbc_smote.predict(np.array(X_val_scaled)), y_val))

Run Code Online (Sandbox Code Playgroud)

Answer 5

Jun*_*uxx 5

SMOTE不是scikit-learn内置的,但仍有在线实现.
在这里,例如.

归档时间：	12 年，11 月前
查看次数：	40898 次
最近记录：	6 年，12 月前