我对scikit-learn完全是新手.
我想知道当我想在测试数据集上转换相同特征的分类数据时是否应该使用在训练数据集上使用的相同Label Encoder实例.并且,它意味着如下
from sklearn import preprocessing
# trainig data label encoding
le_blood_type = preprocessing.LabelEncoder()
df_training[ 'BLOOD_TYPE' ] = le_blood_type.fit_transform( df_training[ 'BLOOD_TYPE' ] ) # labeling from string
....
1. Using same label encoder
df_test[ 'BLOOD_TYPE' ] = le_blood_type.fit_transform( df_test[ 'BLOOD_TYPE' ] )
2. Using different label encoder
le_for_test_blood_type = preprocessing.LabelEncoder()
df_test[ 'BLOOD_TYPE' ] = le_for_test_blood_type.fit_transform( df_test[ 'BLOOD_TYPE' ] )
Run Code Online (Sandbox Code Playgroud)
哪一个是正确的代码?或者,无论我选择上述代码,它都没有任何差异,因为训练数据集的分类数据和测试数据集的分类数据应该与结果相同.
scikit-learn ×1