通过在一个热编码数据上训练的模型预测新值

Question

通过在一个热编码数据上训练的模型预测新值

Gir*_*ngh 2 python machine-learning prediction random-forest scikit-learn

这可能看起来像一个微不足道的问题。但我在预测模型结果时陷入困境。我的问题是这样的：

我有一个形状为 1000 x 19（目标特征除外）的数据集，但经过一次热编码后它变成了 1000 x 141。由于我在形状为 1000 x 141 的数据上训练了模型，所以我需要形状为 1 x 141 的数据（至少）用于预测。我也知道在 python 中，我可以使用

model.predict(data)

Run Code Online (Sandbox Code Playgroud)

但是，由于我是通过 1 x 19 形状的门户网站从最终用户那里获取数据。现在我很困惑我应该如何进一步根据用户数据进行预测。

如何将形状为 1 x 19 的数据转换为 1 x 141，因为我必须保持与训练/测试数据相同的顺序，这意味着列的顺序不应不同？在这个方向上的任何帮助将不胜感激。

Answer 1

sec*_*ive 6

我假设要创建单热编码，您使用的是 sklearn onehotencoder。如果你使用它，那么问题应该很容易解决。由于您在训练数据上安装了一个热编码器

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(categories = "auto", handle_unknown = "ignore")
X_train_encoded = encoder.fit_transform(X_train)

Run Code Online (Sandbox Code Playgroud)

所以现在在上面的代码中，您的编码器安装在您的训练数据上，因此当您获得测试数据时，您可以使用此拟合编码器将其转换为相同的编码数据。

test_data = encoder.transform(test_data)

Run Code Online (Sandbox Code Playgroud)

现在您的测试数据也将是 1x141 的形状。您可以使用检查形状

(pd.DataFrame(test_data.toarray())).shape

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，8 月前
查看次数：	1754 次
最近记录：	6 年，8 月前