使用pandas将分类值转换为二进制

Rkz*_*Rkz 10 python numpy type-conversion pandas categorical-data

我正在尝试使用pandas将分类值转换为二进制值.我们的想法是将每个唯一的分类值视为一个特征(即一列),并根据特定对象(即行)是否分配给该类别而放置1或0.以下是代码:

data = pd.read_csv('somedata.csv')
converted_val = data.T.to_dict().values()
vectorizer = DV( sparse = False )
vec_x = vectorizer.fit_transform( converted_val )
numpy.savetxt('out.csv',vec_x,fmt='%10.0f',delimiter=',')
Run Code Online (Sandbox Code Playgroud)

我的问题是,如何使用列名保存这些转换后的数据?在上面的代码中,我能够使用numpy.savetxt函数保存数据,但这只是保存数组并且列名丢失.或者,是否有一种非常有效的方法来执行上述操作?

小智 19

你的意思是"一热"编码?

假设您有以下数据集:

import pandas as pd
df = pd.DataFrame([
            ['green', 1, 10.1, 0], 
            ['red', 2, 13.5, 1], 
            ['blue', 3, 15.3, 0]])

df.columns = ['color', 'size', 'prize', 'class label']
df
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

现在,您有多种选择......

A)繁琐的方法

color_mapping = {
           'green': (0,0,1),
           'red': (0,1,0),
           'blue': (1,0,0)}

df['color'] = df['color'].map(color_mapping)
df
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

import numpy as np
y = df['class label'].values
X = df.iloc[:, :-1].values
X = np.apply_along_axis(func1d= lambda x: np.array(list(x[0]) + list(x[1:])), axis=1, arr=X)

print('Class labels:', y)
print('\nFeatures:\n', X)
Run Code Online (Sandbox Code Playgroud)

产量:

Class labels: [0 1 0]

Features:
 [[  0.    0.    1.    1.   10.1]
 [  0.    1.    0.    2.   13.5]
 [  1.    0.    0.    3.   15.3]]
Run Code Online (Sandbox Code Playgroud)

B)Scikit-learn's DictVectorizer

from sklearn.feature_extraction import DictVectorizer
dvec = DictVectorizer(sparse=False)

X = dvec.fit_transform(df.transpose().to_dict().values())
X
Run Code Online (Sandbox Code Playgroud)

产量:

array([[  0. ,   0. ,   1. ,   0. ,  10.1,   1. ],
       [  1. ,   0. ,   0. ,   1. ,  13.5,   2. ],
       [  0. ,   1. ,   0. ,   0. ,  15.3,   3. ]])
Run Code Online (Sandbox Code Playgroud)

C)熊猫 get_dummies

pd.get_dummies(df)
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述


YS-*_*S-L 11

您似乎正在使用scikit-learn DictVectorizer将分类值转换为二进制.在这种情况下,要将结果与新列名一起存储,您可以使用from vec_x和from中的值构造一个新的DataFrame DV.get_feature_names().然后,将DataFrame存储到磁盘(例如,使用to_csv())而不是numpy数组.

或者,也可以使用函数pandas直接进行编码get_dummies:

import pandas as pd
data = pd.DataFrame({'T': ['A', 'B', 'C', 'D', 'E']})
res = pd.get_dummies(data)
res.to_csv('output.csv')
print res
Run Code Online (Sandbox Code Playgroud)

输出:

   T_A  T_B  T_C  T_D  T_E
0    1    0    0    0    0
1    0    1    0    0    0
2    0    0    1    0    0
3    0    0    0    1    0
4    0    0    0    0    1
Run Code Online (Sandbox Code Playgroud)