小编Fel*_*ard的帖子

Scikit使用SVC学习错误的预测

我正在尝试使用径向核的SVM 预测MNIST（http://pjreddie.com/projects/mnist-in-csv/）数据集。我想训练几个例子（例如1000个）并预测更多例子。问题是，无论我何时进行预测，除非测试集的索引与训练集的索引一致。也就是说，假设我从训练示例中以示例1：1000进行了训练。然后，对于我的测试集的1：1000，预测是正确的（即SVM尽其所能），但是其余部分我得到相同的输出。但是，如果我使用示例2001：3000进行训练，那么只有与测试集中的那些行相对应的测试示例才被正确标记（即，不具有相同的常数）。我完全不知所措，我认为这里存在某种错误，因为与LinearSVC完全相同的代码可以正常工作，尽管显然该方法的准确性较低。

首先，我以示例501：1000的训练数据进行训练：

# dat_train/test are pandas DFs corresponding to both MNIST datasets
dat_train = pd.read_csv('data/mnist_train.csv', header=None)
dat_test = pd.read_csv('data/mnist_train.csv', header=None)

svm = SVC(C=10.0)
idx = range(1000)
#idx = np.random.choice(range(len(dat_train)), size=1000, replace=False)
X_train = dat_train.iloc[idx,1:].reset_index(drop=True).as_matrix()
y_train = dat_train.iloc[idx,0].reset_index(drop=True).as_matrix()
X_test = dat_test.reset_index(drop=True).as_matrix()[:,1:]
y_test = dat_test.reset_index(drop=True).as_matrix()[:,0]
svm.fit(X=X_train[501:1000,:], y=y_train[501:1000])

Run Code Online (Sandbox Code Playgroud)

在这里您可以看到大约一半的预测是错误的

y_pred = svm.predict(X_test[:1000,:])
confusion_matrix(y_test[:1000], y_pred)

Run Code Online (Sandbox Code Playgroud)

都是错误的（即常量）

y_pred = svm.predict(X_test[:500,:])
confusion_matrix(y_test[:500], y_pred)

Run Code Online (Sandbox Code Playgroud)

这是我希望所有测试数据都能看到的

y_pred = svm.predict(X_test[501:1000,:])
confusion_matrix(y_test[501:1000], y_pred)

Run Code Online (Sandbox Code Playgroud)

您可以使用LinearSVC检查以上所有内容是否正确！

python svm svc scikit-learn

Fel*_*ard

lucky-day

1
推荐指数

1
解决办法

1326
查看次数

标签统计

python ×1

scikit-learn ×1

svc ×1

svm ×1

Scikit使用SVC学习错误的预测

标签 统计

小编Fel_ard的帖子

标签统计