Scikit 学习系列拆分训练测试

Question

Scikit 学习系列拆分训练测试

Avi*_*ade 3 pandas scikit-learn cross-validation sklearn-pandas

我有一个数据，其中包含按排序顺序的日期。

我想将给定的数据拆分为训练和测试集。但是，我必须以测试必须比训练集更新的方式拆分数据。

请看给定的例子：

让我们假设我们有按日期排列的数据：

1, 2, 3, ..., n。

从 1 到 n 的数字代表天数。

我想把它从要训练的数据中分成 20% 和要测试集的 80% 数据。

Good results:

1) train set = 1, 2, 3, ..., 20

   test set = 21, ..., 100


2) train set = 101, 102, ... 120

    test set = 121, ... 200

Run Code Online (Sandbox Code Playgroud)

我的代码：

train_size = 0.2
train_dataframe, test_dataframe = cross_validation.train_test_split(features_dataframe, train_size=train_size)                          

train_dataframe = train_dataframe.sort(["date"])
test_dataframe = test_dataframe.sort(["date"])

Run Code Online (Sandbox Code Playgroud)

对我不起作用！

有什么建议？

Answer 1

piR*_*red 5

如果您坚持所有测试数据都比所有训练数据都新，那么只有一种方法可以实现所需的 20/80 拆分。

n = features_dataframe.shape[0]
train_size = 0.2

features_dataframe = features_dataframe.sort_values('date')
train_dataframe = features_dataframe.iloc[:int(n * train_size)]
test_dataframe = features_dataframe.iloc[int(n * train_size):]

Run Code Online (Sandbox Code Playgroud)

它没有任何随机性。

归档时间：	9 年，1 月前
查看次数：	2465 次
最近记录：	9 年，1 月前