使用Pandas为Scikit-Learn准备CSV文件数据?

Kin*_*gon 6 python csv pandas scikit-learn

我有一个没有标题的csv文件,我正在使用pandas导入到python中.最后一列是目标类,而其余列是图像的像素值.如何使用pandas(80/20)将此数据集拆分为训练集和测试集?

此外,一旦完成,我将如何分割每个集合,以便我可以定义x(除最后一列之外的所有列)和y(最后一列)?

我使用以下方法导入了我的文件:

dataset = pd.read_csv('example.csv', header=None, sep=',')
Run Code Online (Sandbox Code Playgroud)

谢谢

ayh*_*han 9

我建议使用sklearn的train_test_split

from sklearn.model_selection import train_test_split
# for older versions import from sklearn.cross_validation
# from sklearn.cross_validation import train_test_split
X, y = dataset.iloc[:, :-1], dataset.iloc[:, -1]
kwargs = dict(test_size=0.2, random_state=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, **kwargs)
Run Code Online (Sandbox Code Playgroud)