将分类数据从CSV加载到Scikit-Learn进行机器学习

Tum*_*tsu 3 python csv classification machine-learning scikit-learn

我正在学习Scikit-Learn为推文做一些分类.我在一列上有一个带有推文的csv,下一列有0-11的类.我从Scikit-Learn网站浏览了这个教程,我想我理解了实际​​的分类是如何完成的,但我认为我并不真正理解数据格式.在教程中,材料位于文件夹中的文件中,其中文件夹名称充当分类标记.

在我的情况下,我应该从csv文件加载该数据,显然我需要构建数据结构,手动输入到矢量化器和分类器.我该怎么办呢?我认为这个教程在这方面有点模棱两可,因为数据加载是自动完成的,让我对自定义数据的结构和加载一无所知.

ely*_*ase 11

通常你会使用pandas.read_csv,或者如果你不想要pandas依赖numpy.load,或者甚至使用标准库将cvs加载到列表中.它看起来像这样:

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

df = pd.read_csv('example.csv', header=None, sep=',', 
                 names=['tweets', 'class'])   # columns names if no header
vect = TfidfVectorizer()
X = vect.fit_transform(df['tweets']) 
y = df['class']
Run Code Online (Sandbox Code Playgroud)

一旦你有了X,y你可以将它们提供给分类器.