我有一个数据集,每个样本都有一个 ID 列,如下例所示:
id score1 score2 score3
1 0.41 0.37 0.04
2 0.19 0.33 0.277
3 0.21 0.33 0.037
4 0.49 0.23 0.378
5 0.51 0.78 0.041
Run Code Online (Sandbox Code Playgroud)
要在此数据上拟合和预测 ML 分类器,我必须从数据中删除 ID 列
X = np.array(df.drop(['id'], 1))
X_train, X_test = model_selection.train_test_split(X, test_size=0.2)`
clf.fit(X_train)
pred = clf.predict(X_test)
Run Code Online (Sandbox Code Playgroud)
我想知道如何在预测结果中恢复 ID,以便识别每个样本是否正确分类?因为我已经知道样本的正确标签。或者,是否有办法在训练中保留 ID(可以是数字或非数字)?
我发现了这个相关的问题,但我不明白该怎么做,因为他们在谈论人口普查估算器等其他东西,我正在运行一个非常简单的 Python 脚本,其中包含 numpy 和 scikit-learn 库。