Pandas read_csv 将数据加载到错误的列中

Rac*_*iri 0 python csv pandas

我有一个包含四列的 CSV 文件。第一列中的每一行都包含一条推文,第二列包含相应的标签(字母之一 - A/N/Q/S - 分别代表可操作/不可操作/查询/建议)。所以第二列基本上包含目标类。

第三列和第四列尚不相关。

我正在实施决策树分类器。

问题在于分类器还将某些推文视为标签。因此,在预测输出中,虽然我应该只得到 A、N、Q 或 S,但我也得到了一些带有这些标签的推文。

以下是分类器代码dtree_csv.py

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.cross_validation import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.decomposition import PCA
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

try:
    df = pd.read_csv('tweet-class1.csv', header=None, sep=',',names=['tweets', 'class', 'dept', 'reply'],encoding='UTF-7',skipinitialspace=True)   # columns names if no header

    vect = TfidfVectorizer()
    x = vect.fit_transform(df['tweets'].values.astype('U')) 
    y = df['class']

    SIZE=50
    STEP=.02

    train,test,train_lab,test_lab=train_test_split(x,y,test_size=.15,random_state=100)

    clf=DecisionTreeClassifier()
    clf.fit(train,train_lab)

    output = clf.predict(test)
    for row in output:
        print row
    print accuracy_score(test_lab,output)

except UnicodeDecodeError as e:
    print 'unicode error'
Run Code Online (Sandbox Code Playgroud)

运行时dtree_csv.py,这是我可以在终端上看到的输出。

输出的屏幕截图

我已经尝试了很多事情:

  • 使用分隔符和定界符的不同组合
  • 使用 TSV 代替 CSV
  • 将原始 .xls 文件重新导入 CSV
  • 在 UTF-7 和 UTF-8 之间切换编码
  • 手动扫描 CSV 文件中是否有错误的推文

似乎什么都不起作用。请让我知道我错过了什么。

小智 5

当我尝试读取每行末尾带有逗号的 CSV 文件时,也发生了同样的问题。

尝试将额外的 index_col=False 参数传递给 pd.read_csv 函数调用。