在sklearn.cross_validation中使用train_test_split和cross_val_score之间的区别

Question

在sklearn.cross_validation中使用train_test_split和cross_val_score之间的区别

evi*_*ing 10 python scikit-learn cross-validation

我有一个20列的矩阵.最后一列是0/1标签.

这里有数据链接.

我正在尝试使用交叉验证在数据集上运行随机林.我使用两种方法:

运用 sklearn.cross_validation.cross_val_score
运用 sklearn.cross_validation.train_test_split

当我做我认为完全相同的事情时,我会得到不同的结果.举例来说,我使用上面的两种方法运行双重交叉验证,如下面的代码所示.

import csv
import numpy as np
import pandas as pd
from sklearn import ensemble
from sklearn.metrics import roc_auc_score
from sklearn.cross_validation import train_test_split
from sklearn.cross_validation import cross_val_score

#read in the data
data = pd.read_csv('data_so.csv', header=None)
X = data.iloc[:,0:18]
y = data.iloc[:,19]

depth = 5
maxFeat = 3 

result = cross_val_score(ensemble.RandomForestClassifier(n_estimators=1000, max_depth=depth, max_features=maxFeat, oob_score=False), X, y, scoring='roc_auc', cv=2)

result
# result is now something like array([ 0.66773295,  0.58824739])

xtrain, xtest, ytrain, ytest = train_test_split(X, y, test_size=0.50)

RFModel = ensemble.RandomForestClassifier(n_estimators=1000, max_depth=depth, max_features=maxFeat, oob_score=False)
RFModel.fit(xtrain,ytrain)
prediction = RFModel.predict_proba(xtest)
auc = roc_auc_score(ytest, prediction[:,1:2])
print auc    #something like 0.83

RFModel.fit(xtest,ytest)
prediction = RFModel.predict_proba(xtrain)
auc = roc_auc_score(ytrain, prediction[:,1:2])
print auc    #also something like 0.83

Run Code Online (Sandbox Code Playgroud)

我的问题是:

为什么我会得到不同的结果,也就是说,为什么我使用的AUC(我使用的指标)更高train_test_split？

注意:当我使用更多折叠(比如说10倍)时,我的结果中似乎有某种模式,第一次计算总是给我最高的AUC.

在上例中的双重交叉验证的情况下,第一个AUC总是高于第二个AUC; 它总是像0.70和0.58.

谢谢你的帮助!