小编Bac*_*ash的帖子

在sklearn LabelEncoder中返回标签及其编码值

我使用LabelEncoder,并OneHotEncodersklearn一个机器学习项目编码数据集中的标签(国名)。一切正常,我的模型运行完美。该项目将根据包括客户所在国家/地区在内的许多功能(数据)对银行客户是继续还是离开银行进行分类。

当我要预测(分类)新客户(仅一个)时,就会出现我的问题。新客户的数据仍未进行预处理(即,国家/地区名称未编码)。类似于以下内容:

new_customer = np.array([['France', 600, 'Male', 40, 3, 60000, 2, 1,1, 50000]])
Run Code Online (Sandbox Code Playgroud)

在我学习机器学习的在线课程中,讲师打开了包含编码数据的预处理数据集,并手动检查了France的代码并在中对其进行了更新new_customer,如下所示:

new_customer = np.array([[0, 0, 600, 'Male', 40, 3, 60000, 2, 1,1, 50000]])
Run Code Online (Sandbox Code Playgroud)

我认为这不切实际,必须有一种方法可以自动将France编码为原始数据集中使用的相同代码,或者至少应有一种返回国家及其编码值的列表的方法。手动编码标签似乎很乏味且容易出错。那么,如何使该过程自动化或为标签生成代码?提前致谢。

python machine-learning scikit-learn one-hot-encoding

1
推荐指数
1
解决办法
4768
查看次数