PyTorch：时间序列任务的数据加载器

Question

PyTorch：时间序列任务的数据加载器

beg*_*neR 10 python pandas torch pytorch

我有一个 Pandas 数据框，其中的n行和k列已加载到内存中。我想获得一个预测的任务，其中一个批次的第一次训练的例子应该具有形状批次(q, k)与q指从原始数据帧的行数（例如，0：128）。下一个例子应该是(128:256, k)等等。因此，最终一批应具有(32, q, k)与批大小对应的 32的形状。

由于TensorDatasetfromdata_utils在这里不起作用，我想知道最好的方法是什么。我试图np.array_split()将q值的可能拆分数作为第一维，以便编写自定义 DataLoader，但由于并非所有数组都具有相同的形状，因此不能保证重新整形工作。

这是一个最小的例子，可以让它更清楚。在这种情况下，批量大小为 3，q为 2：

import pandas as pd
import numpy as np
df = pd.DataFrame(data=np.arange(0,30).reshape(10,3),columns=['A','B','C'])

Run Code Online (Sandbox Code Playgroud)

数据集：

    A   B   C
0   0   1   2
1   3   4   5
2   6   7   8
3   9   10  11
4   12  13  14
5   15  16  17
6   18  19  20
7   21  22  23
8   24  25  26
9   27  28  29

Run Code Online (Sandbox Code Playgroud)

在这种情况下，第一批应具有形状 (3,2,3)，如下所示：

array([[[ 0.,  1.,  2.],
        [ 3.,  4.,  5.]],

       [[ 3.,  4.,  5.],
        [ 6.,  7.,  8.]],

       [[ 6.,  7.,  8.],
        [ 9., 10., 11.]]])

Run Code Online (Sandbox Code Playgroud)

Answer 1

Fla*_*lar 12

我最终也编写了自定义数据集，尽管它与上面的答案有点不同：

class TimeseriesDataset(torch.utils.data.Dataset):   
    def __init__(self, X, y, seq_len=1):
        self.X = X
        self.y = y
        self.seq_len = seq_len

    def __len__(self):
        return self.X.__len__() - (self.seq_len-1)

    def __getitem__(self, index):
        return (self.X[index:index+self.seq_len], self.y[index+self.seq_len-1])

Run Code Online (Sandbox Code Playgroud)

用法如下：

train_dataset = TimeseriesDataset(X_lstm, y_lstm, seq_len=4)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size = 3, shuffle = False)

for i, d in enumerate(train_loader):
    print(i, d[0].shape, d[1].shape)

>>>
# shape: tuple((batch_size, seq_len, n_features), (batch_size))
0 torch.Size([3, 4, 2]) torch.Size([3])

Run Code Online (Sandbox Code Playgroud)

Answer 2

小智 5

您可以编写 TensorDataset 的模拟。为此，您需要从 Dataset 类继承。

from torch.utils.data import Dataset, DataLoader

class MyDataset(Dataset):
    def __init__(self, data_frame, q):
        self.data = data_frame.values
        self.q = q

    def __len__(self):
        return self.data.shape[0] // self.q

    def __getitem__(self, index):
        return self.data[index * self.q: (index+1) * self.q]

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，6 月前
查看次数：	4016 次
最近记录：	5 年，1 月前