我有一个包含四列的 CSV 文件。第一列中的每一行都包含一条推文,第二列包含相应的标签(字母之一 - A/N/Q/S - 分别代表可操作/不可操作/查询/建议)。所以第二列基本上包含目标类。
第三列和第四列尚不相关。
我正在实施决策树分类器。
问题在于分类器还将某些推文视为标签。因此,在预测输出中,虽然我应该只得到 A、N、Q 或 S,但我也得到了一些带有这些标签的推文。
以下是分类器代码:dtree_csv.py
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.cross_validation import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.decomposition import PCA
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
try:
df = pd.read_csv('tweet-class1.csv', header=None, sep=',',names=['tweets', 'class', 'dept', 'reply'],encoding='UTF-7',skipinitialspace=True) # columns names if no header
vect = TfidfVectorizer()
x = vect.fit_transform(df['tweets'].values.astype('U'))
y = df['class']
SIZE=50
STEP=.02
train,test,train_lab,test_lab=train_test_split(x,y,test_size=.15,random_state=100)
clf=DecisionTreeClassifier()
clf.fit(train,train_lab)
output = clf.predict(test)
for row in output:
print row
print accuracy_score(test_lab,output)
except UnicodeDecodeError as e:
print 'unicode error'
Run Code Online (Sandbox Code Playgroud)
运行时dtree_csv.py,这是我可以在终端上看到的输出。
我已经尝试了很多事情:
似乎什么都不起作用。请让我知道我错过了什么。