如何在自定义数据上训练 Pytorch 模型

Question

我在将我的代码从 Keras/Tensorflow 转移到 Pytorch 方面非常菜鸟，我正在尝试在 Pytorch 中重新训练我的 TF 模型，但是，我的数据集有一些特殊性，这让我很难做到运行在 Pytorch 中。

要了解我的问题，回想一下我有一个以这种方式初始化的自定义数据集：

class MyDataSet(torch.utils.data.Dataset):
    def __init__(self, x, y, transform=None):
        super(MyDataSet, self).__init__()
        # store the raw tensors
        self._x = np.load(x)
        self._y = np.load(y)
    
        self._x=np.swapaxes(self._x,3,2)
        self._x=np.swapaxes(self._x,2,1)
        self.transform = transform
    
    def __len__(self):
        # a DataSet must know it size
        return self._x.shape[0]

    def __getitem__(self, index):
        x = self._x[index, :]
        y = self._y[index]
    
        return x, y

_self._x的形状是(12000, 3, 224, 224) self._y的形状是(12000,)

我正在对这个数据中的预训练 RESNET-50 进行微调，训练按以下方式进行：

import torch
import torchvision
import torchvision.transforms as transforms
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.autograd import Variable
import numpy as np
from torch.utils.data import Dataset, DataLoader
from torchvision.models import resnet50
import time
import copy

def set_parameter_requires_grad(model, feature_extracting):
    if feature_extracting:
        for param in model.parameters():
            param.requires_grad = False
        
#Transform dataset 
print("Loading Data")
transform = transforms.Compose([transforms.ToTensor()])
dataset = MyDataSet("me/train1-features.npy","/me/train1-classes.npy",transform=transform)
dataloader = DataLoader(dataset, batch_size=4)

print("Configuring network")
feature_extract = True
num_epochs = 15
num_classes=12

model_ft = resnet50(pretrained=True)
set_parameter_requires_grad(model_ft, feature_extract)
num_ftrs = model_ft.fc.in_features
model_ft.fc = nn.Linear(num_ftrs, num_classes)

if torch.cuda.is_available():
    model_ft.cuda()

params_to_update = model_ft.parameters()

print("Params to learn:")
if feature_extract:
    params_to_update = []
    for name,param in model_ft.named_parameters():
        if param.requires_grad == True:
            params_to_update.append(param)
            print("\t",name)

else:
    for name,param in model_ft.named_parameters():
        if param.requires_grad == True:
            print("\t",name)

# Observe that all parameters are being optimized
optimizer_ft = optim.SGD(params_to_update, lr=0.001, momentum=0.9)

# Setup the loss fxn
criterion = nn.CrossEntropyLoss()

#Train (how to validate?)

for epoch in range(num_epochs):  # loop over the dataset multiple times

    running_loss = 0.0
    for i, data in enumerate(dataloader, 0):
              
        # get the inputs; data is a list of [inputs, labels]
        inputs, labels = data
        
        #transfer labels and inputs to cuda()
        inputs,labels=inputs.cuda(), labels.cuda()
        
        # zero the parameter gradients
        optimizer_ft.zero_grad()

        # forward + backward + optimize
        outputs = model_ft(inputs)
        loss = loss_func(outputs, labels)
        loss.backward()
        optimizer.step()

        # print statistics
        running_loss += loss.item()
        if i % 2000 == 1999:    # print every 2000 mini-batches
            print(f'[{epoch + 1}, {i + 1:5d}] loss: {running_loss / 2000:.3f}')
            running_loss = 0.0

但是，每当我运行这段代码时，我都会收到以下错误

    Traceback (most recent call last):
  File "train_my_data_example.py", line 114, in <module>
    outputs = model_ft(inputs)
  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "/usr/local/lib/python3.8/dist-packages/torchvision/models/resnet.py", line 249, in forward
    return self._forward_impl(x)
  File "/usr/local/lib/python3.8/dist-packages/torchvision/models/resnet.py", line 232, in _forward_impl
    x = self.conv1(x)
  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/conv.py", line 399, in forward
    return self._conv_forward(input, self.weight, self.bias)
  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/conv.py", line 395, in _conv_forward
    return F.conv2d(input, weight, bias, self.stride,
RuntimeError: Input type (torch.cuda.ByteTensor) and weight type (torch.cuda.FloatTensor) should be the same

我也可以在 TF/Keras 上正常执行训练和验证程序，但我不知道如何使用 Pytorch 在我的自定义数据集中执行此操作。

如何解决我的问题以及如何在自定义数据中使用 Pytorch 运行 train/val 循环？

Answer 1

似乎 np.load 正在将二进制数据加载到 X，因此 ToTensor() 试图通过将其强制转换为 ByteTensor 来保留数据类型。您可以通过 __getitem__:

中的小改动来解决此问题

def __getitem__(self, index):
    x = self._x[index, :]
    y = self._y[index]

    return x.astype(np.float32), y

如何在自定义数据上训练 Pytorch 模型

How to train Pytorch model on custom data

python

keras

pytorch