我已经在这里、这里和这里提到了这些帖子。不要将其标记为重复。
我正在研究一个二元分类问题,其中我的数据集具有分类列和数字列。
但是,某些分类列混合有数字和字符串值。尽管如此,它们仅指示类别名称。
例如,我有一个名为的列biz_category,其中包含诸如等的值A,B,C,4,5。
我猜想以下错误是由于诸如 之类的值引发的4 and 5。
因此,我尝试了以下将它们转换为category数据类型。(但仍然不起作用)
cols=X_train.select_dtypes(exclude='int').columns.to_list()
X_train[cols]=X_train[cols].astype('category')
Run Code Online (Sandbox Code Playgroud)
我的数据信息如下所示
<class 'pandas.core.frame.DataFrame'>
Int64Index: 683 entries, 21 to 965
Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Feature_A 683 non-null category
1 Product Classification 683 non-null category
2 Industry 683 non-null category
3 DIVISION 683 non-null category
4 biz_category 683 non-null category
5 Country 683 non-null category
6 Product …Run Code Online (Sandbox Code Playgroud)