PyTorch 中的 DataLoader 和 DataLoader2 有什么不同?
What is different between DataLoader and DataLoader2 in PyTorch?
我使用 PyTorch 数据集开发了一个自定义数据集 class。代码是这样的:
class CustomDataset(torch.utils.data.Dataset):
def __init__(self, root_path, transform=None):
self.path = root_path
self.mean = mean
self.std = std
self.transform = transform
self.images = []
self.masks = []
for add in os.listdir(self.path):
# Some script to load file from directory and appending address to relative array
...
self.masks.sort()
self.images.sort()
def __len__(self):
return len(self.images)
def __getitem__(self, item):
image_address = self.images[item]
mask_address = self.masks[item]
if self.transform is not None:
augment = self.transform(image=np.asarray(Image.open(image_address, 'r', None)),
mask=np.asarray(Image.open(mask_address, 'r', None)))
image = Image.fromarray(augment['image'])
mask = augment['mask']
if self.transform is None:
image = np.asarray(Image.open(image_address, 'r', None))
mask = np.asarray(Image.open(mask_address, 'r', None))
# Handle Augmentation here
return image, mask
然后我从这个 class 创建了一个对象并将其传递给 torch.utils.data.DataLoader。虽然这适用于 DataLoader,但使用 torch.utils.data.DataLoader2 我遇到了问题。错误是这样的:
dataloader = torch.utils.data.DataLoader2(dataset=dataset, batch_size=2, pin_memory=True, num_workers=4)
Exception: thread parallelism mode is not supported for old DataSets
我的问题是为什么将 DataLoader2 模块添加到 PyTorch 与 DataLoader 有什么不同,它有什么好处?
PyTorch 版本:1.10.1
你绝对不应该使用它DataLoader2
。
torch.utils.data.DataLoader2
(实际上是torch.utils.data.dataloader_experimental.DataLoader2
)
作为实验性“功能”添加,作为 DataLoader
的未来替代品。它被定义为 here。目前,它只能在 master 分支(不稳定)上访问,当然官方页面上没有记录。
我使用 PyTorch 数据集开发了一个自定义数据集 class。代码是这样的:
class CustomDataset(torch.utils.data.Dataset):
def __init__(self, root_path, transform=None):
self.path = root_path
self.mean = mean
self.std = std
self.transform = transform
self.images = []
self.masks = []
for add in os.listdir(self.path):
# Some script to load file from directory and appending address to relative array
...
self.masks.sort()
self.images.sort()
def __len__(self):
return len(self.images)
def __getitem__(self, item):
image_address = self.images[item]
mask_address = self.masks[item]
if self.transform is not None:
augment = self.transform(image=np.asarray(Image.open(image_address, 'r', None)),
mask=np.asarray(Image.open(mask_address, 'r', None)))
image = Image.fromarray(augment['image'])
mask = augment['mask']
if self.transform is None:
image = np.asarray(Image.open(image_address, 'r', None))
mask = np.asarray(Image.open(mask_address, 'r', None))
# Handle Augmentation here
return image, mask
然后我从这个 class 创建了一个对象并将其传递给 torch.utils.data.DataLoader。虽然这适用于 DataLoader,但使用 torch.utils.data.DataLoader2 我遇到了问题。错误是这样的:
dataloader = torch.utils.data.DataLoader2(dataset=dataset, batch_size=2, pin_memory=True, num_workers=4)
Exception: thread parallelism mode is not supported for old DataSets
我的问题是为什么将 DataLoader2 模块添加到 PyTorch 与 DataLoader 有什么不同,它有什么好处?
PyTorch 版本:1.10.1
你绝对不应该使用它DataLoader2
。
torch.utils.data.DataLoader2
(实际上是torch.utils.data.dataloader_experimental.DataLoader2
)
作为实验性“功能”添加,作为 DataLoader
的未来替代品。它被定义为 here。目前,它只能在 master 分支(不稳定)上访问,当然官方页面上没有记录。