相关疑难解决方法(0)

使用相同的Label Encoder来测试数据集?还是新的标签编码器?

我对scikit-learn完全是新手.

我想知道当我想在测试数据集上转换相同特征的分类数据时是否应该使用在训练数据集上使用的相同Label Encoder实例.并且,它意味着如下

from sklearn import preprocessing

# trainig data label encoding
le_blood_type = preprocessing.LabelEncoder()
df_training[ 'BLOOD_TYPE' ] = le_blood_type.fit_transform( df_training[ 'BLOOD_TYPE' ] )    # labeling from string
....
1. Using same label encoder
   df_test[ 'BLOOD_TYPE' ] = le_blood_type.fit_transform( df_test[ 'BLOOD_TYPE' ] )

2. Using different label encoder
   le_for_test_blood_type = preprocessing.LabelEncoder()
   df_test[ 'BLOOD_TYPE' ] = le_for_test_blood_type.fit_transform( df_test[ 'BLOOD_TYPE' ] )
Run Code Online (Sandbox Code Playgroud)

哪一个是正确的代码?或者,无论我选择上述代码,它都没有任何差异,因为训练数据集的分类数据和测试数据集的分类数据应该与结果相同.

scikit-learn

3
推荐指数
2
解决办法
5373
查看次数

标签 统计

scikit-learn ×1