Tum*_*tsu 3 python csv classification machine-learning scikit-learn
我正在学习Scikit-Learn为推文做一些分类.我在一列上有一个带有推文的csv,下一列有0-11的类.我从Scikit-Learn网站浏览了这个教程,我想我理解了实际的分类是如何完成的,但我认为我并不真正理解数据格式.在教程中,材料位于文件夹中的文件中,其中文件夹名称充当分类标记.
在我的情况下,我应该从csv文件加载该数据,显然我需要构建数据结构,手动输入到矢量化器和分类器.我该怎么办呢?我认为这个教程在这方面有点模棱两可,因为数据加载是自动完成的,让我对自定义数据的结构和加载一无所知.
ely*_*ase 11
通常你会使用pandas.read_csv,或者如果你不想要pandas依赖numpy.load,或者甚至使用标准库将cvs加载到列表中.它看起来像这样:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
df = pd.read_csv('example.csv', header=None, sep=',',
names=['tweets', 'class']) # columns names if no header
vect = TfidfVectorizer()
X = vect.fit_transform(df['tweets'])
y = df['class']
Run Code Online (Sandbox Code Playgroud)
一旦你有了X,y你可以将它们提供给分类器.
| 归档时间: |
|
| 查看次数: |
4886 次 |
| 最近记录: |