相关疑难解决方法(0)

将字符串(类别)的数组从pandas数据帧转换为int数组

我正在尝试做一些与上一个问题非常相似的事情,但我遇到了错误.我有一个包含功能和标签的pandas数据框我需要进行一些转换以将功能和标签变量发送到机器学习对象:

import pandas
import milk
from scikits.statsmodels.tools import categorical

Run Code Online (Sandbox Code Playgroud)

然后我有:

trainedData=bigdata[bigdata['meta']<15]
untrained=bigdata[bigdata['meta']>=15]
#print trainedData
#extract two columns from trainedData
#convert to numpy array
features=trainedData.ix[:,['ratio','area']].as_matrix(['ratio','area'])
un_features=untrained.ix[:,['ratio','area']].as_matrix(['ratio','area'])
print 'features'
print features[:5]
##label is a string:single, touching,nuclei,dust
print 'labels'

labels=trainedData.ix[:,['type']].as_matrix(['type'])
print labels[:5]
#convert single to 0, touching to 1, nuclei to 2, dusts to 3
#
tmp=categorical(labels,drop=True)
targets=categorical(labels,drop=True).argmax(1)
print targets

Run Code Online (Sandbox Code Playgroud)

输出控制台首先产生:

features
[[ 0.38846334  0.97681855]
[ 3.8318634   0.5724734 ]
[ 0.67710876  1.01816444]
[ 1.12024943  0.91508699]
[ 7.51749674  1.00156707]]
labels
[[single]
[touching] …

Run Code Online (Sandbox Code Playgroud)

python numpy pandas

Jea*_*Pat

2017 05-23

11
推荐指数

3
解决办法

3万
查看次数