PyTorch 中的 DataLoader 和 DataLoader2 有什么不同？

Question

我使用 PyTorch 数据集开发了一个自定义数据集 class。代码是这样的：

class CustomDataset(torch.utils.data.Dataset):

    def __init__(self, root_path, transform=None):
        self.path = root_path
        self.mean = mean
        self.std = std
        self.transform = transform
        self.images = []
        self.masks = []

        for add in os.listdir(self.path):
            # Some script to load file from directory and appending address to relative array
            ...

        self.masks.sort()
        self.images.sort()

    def __len__(self):
        return len(self.images)

    def __getitem__(self, item):
        image_address = self.images[item]
        mask_address = self.masks[item]



        if self.transform is not None:
            augment = self.transform(image=np.asarray(Image.open(image_address, 'r', None)),
                                     mask=np.asarray(Image.open(mask_address, 'r', None)))
            image = Image.fromarray(augment['image'])
            mask = augment['mask']

        if self.transform is None:
            image = np.asarray(Image.open(image_address, 'r', None))
            mask = np.asarray(Image.open(mask_address, 'r', None))

        # Handle Augmentation here

        return image, mask

然后我从这个 class 创建了一个对象并将其传递给 torch.utils.data.DataLoader。虽然这适用于 DataLoader，但使用 torch.utils.data.DataLoader2 我遇到了问题。错误是这样的：

dataloader = torch.utils.data.DataLoader2(dataset=dataset, batch_size=2, pin_memory=True, num_workers=4)

Exception: thread parallelism mode is not supported for old DataSets

我的问题是为什么将 DataLoader2 模块添加到 PyTorch 与 DataLoader 有什么不同，它有什么好处？

PyTorch 版本：1.10.1

Answer 1

你绝对不应该使用它DataLoader2。

torch.utils.data.DataLoader2（实际上是torch.utils.data.dataloader_experimental.DataLoader2）作为实验性“功能”添加，作为 DataLoader 的未来替代品。它被定义为 here。目前，它只能在 master 分支（不稳定）上访问，当然官方页面上没有记录。

PyTorch 中的 DataLoader 和 DataLoader2 有什么不同？

What is different between DataLoader and DataLoader2 in PyTorch?

python

deep-learning

data-science

pytorch