小编Ped*_*ñoz的帖子

Stanford Spanish POS Tagger标签的含义

我用Stanford POS Tagger标记西班牙语文本(通过Python中的NLTK).

这是我的代码:

import nltk
from nltk.tag.stanford import POSTagger
spanish_postagger = POSTagger('models/spanish.tagger', 'stanford-postagger.jar')
spanish_postagger.tag('esta es una oracion de prueba'.split())

Run Code Online (Sandbox Code Playgroud)

结果是:

[(u'esta', u'pd000000'),
(u'es', u'vsip000'),
(u'una', u'di0000'),
(u'oracion', u'nc0s000'),
(u'de', u'sp000'),
(u'prueba', u'nc0s000')]

Run Code Online (Sandbox Code Playgroud)

我想知道在哪里可以找到pd000000,vsip000,di0000,nc0s000,sp000的确切含义？

python text-mining stanford-nlp

Ped*_*ñoz

2014 11-26

6
推荐指数

1
解决办法

2808
查看次数

如何在scikit学习回归中不标准化目标数据

我试图以csv格式预测铜矿企业数据的数据集中的未来利润数据.

我读了数据:

data = pd.read_csv('data.csv')

Run Code Online (Sandbox Code Playgroud)

我拆分数据:

data_target = data[target].astype(float)
data_used = data.drop(['Periodo', 'utilidad_operativa_dolar'], axis=1)
x_train, x_test, y_train, y_test = train_test_split(data_used, data_target, test_size=0.4,random_state=33)

Run Code Online (Sandbox Code Playgroud)

创建一个svr预测器:

clf_svr= svm.SVR(kernel='rbf')

Run Code Online (Sandbox Code Playgroud)

标准化数据:

from sklearn.preprocessing import StandardScaler
scalerX = StandardScaler().fit(x_train)
scalery = StandardScaler().fit(y_train)

x_train = scalerX.transform(x_train)
y_train = scalery.transform(y_train)
x_test = scalerX.transform(x_test)
y_test = scalery.transform(y_test)

print np.max(x_train), np.min(x_train), np.mean(x_train), np.max(y_train), np.min(y_train), np.mean(y_train)

Run Code Online (Sandbox Code Playgroud)

然后预测: