如何在 PyTorch 中为子集使用不同的数据增强

Question

如何在 PyTorch 中为子集使用不同的数据增强

Fáb*_*rez 5 python deep-learning pytorch data-augmentation

如何Subset在 PyTorch 中为不同的s使用不同的数据增强（转换）？

例如：

train, test = torch.utils.data.random_split(dataset, [80000, 2000])

Run Code Online (Sandbox Code Playgroud)

train并且test将具有与相同的变换dataset。如何对这些子集使用自定义转换？

Answer 1

Fáb*_*rez 8

我目前的解决方案不是很优雅，但有效：

from copy import copy

train_dataset, test_dataset = random_split(full_dataset, [train_size, test_size])
train_dataset.dataset = copy(full_dataset)

test_dataset.dataset.transform = transforms.Compose([
    transforms.Resize(img_resolution),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225])
])

train_dataset.dataset.transform = transforms.Compose([
    transforms.RandomResizedCrop(img_resolution[0]),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225])
])

Run Code Online (Sandbox Code Playgroud)

基本上，我为其中一个拆分定义了一个新数据集（它是原始数据集的副本），然后我为每个拆分定义了一个自定义转换。

注意：train_dataset.dataset.transform有效，因为我使用的是ImageFolder数据集，该数据集使用.tranform属性来执行转换。

如果有人知道更好的解决方案，请与我们分享！

是的，PyTorch 数据集 API 还很初级。内置数据集不具有相同的属性，有些转换仅适用于 PIL 图像，有些仅适用于数组，“子集”不会委托给包装的数据集......我希望这将来会改变，但现在我不这样做不认为有更好的方法 (2认同)

Answer 2

And*_*dyK 6

这就是我使用的（取自这里）：

import torch
from torch.utils.data import Dataset, TensorDataset, random_split
from torchvision import transforms

class DatasetFromSubset(Dataset):
    def __init__(self, subset, transform=None):
        self.subset = subset
        self.transform = transform

    def __getitem__(self, index):
        x, y = self.subset[index]
        if self.transform:
            x = self.transform(x)
        return x, y

    def __len__(self):
        return len(self.subset)

Run Code Online (Sandbox Code Playgroud)

这是一个例子：

init_dataset = TensorDataset(
    torch.randn(100, 3, 24, 24),
    torch.randint(0, 10, (100,))
)

lengths = [int(len(init_dataset)*0.8), int(len(init_dataset)*0.2)]
train_subset, test_subset = random_split(init_dataset, lengths)

train_dataset = DatasetFromSubset(
    train_set, transform=transforms.Normalize((0., 0., 0.), (0.5, 0.5, 0.5))
)
test_dataset = DatasetFromSubset(
    test_set, transform=transforms.Normalize((0., 0., 0.), (0.5, 0.5, 0.5))
)

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，4 月前
查看次数：	3507 次
最近记录：	5 年，11 月前