从pytorch中的自动编码器提取降维数据
Extracting reduced dimension data from autoencoder in pytorch
我在pytorch中定义了我的自动编码器如下:
self.encoder = nn.Sequential(
nn.Conv2d(input_shape[0], 32, kernel_size=1, stride=1),
nn.ReLU(),
nn.Conv2d(32, 64, kernel_size=1, stride=1),
nn.ReLU(),
nn.Conv2d(64, 64, kernel_size=1, stride=1),
nn.ReLU()
)
self.decoder = nn.Sequential(
nn.Conv2d(64, 64, kernel_size=1, stride=1),
nn.ReLU(),
nn.Conv2d(64, 32, kernel_size=1, stride=1),
nn.ReLU(),
nn.Conv2d(32, input_shape[0], kernel_size=1, stride=1),
nn.ReLU(),
nn.Sigmoid()
)
我需要获得一个降维编码,这需要创建一个维数 N 远低于图像维数的新线性层,以便我可以提取激活。
如果有人可以帮助我在解码器部分安装线性层,我将不胜感激(我知道如何 Flatten() 数据,但我想我需要再次 "unflatten" 它以与Conv2d层)
更新:
我根据第一个答案得出了以下结论(它在编码器的输出端给了我一个 8 维瓶颈,工作正常 torch.Size([1, 8, 1, 1] )).
self.encoder = nn.Sequential(
nn.Conv2d(input_shape[0], 32, kernel_size=8, stride=4),
nn.ReLU(),
nn.Conv2d(32, 64, kernel_size=4, stride=2),
nn.ReLU(),
nn.Conv2d(64, 8, kernel_size=3, stride=1),
nn.ReLU(),
nn.MaxPool2d(7, stride=1)
)
self.decoder = nn.Sequential(
nn.ConvTranspose2d(8, 64, kernel_size=3, stride=1),
nn.ReLU(),
nn.Conv2d(64, 32, kernel_size=4, stride=2),
nn.ReLU(),
nn.Conv2d(32, input_shape[0], kernel_size=8, stride=4),
nn.ReLU(),
nn.Sigmoid()
)
我不能做的是用
训练自动编码器
def forward(self, x):
x = self.encoder(x)
x = self.decoder(x)
return x
解码器报错:
Calculated padded input size per channel: (3 x 3). Kernel size: (4 x 4). Kernel size can't be greater than actual input size
谢谢第一个回答的人
在解码器部分,你需要上采样到更大的尺寸,这可以通过nn.ConvTranspose2d
来完成。我注意到在你的编码器部分,你似乎没有对你的特征图进行下采样,因为你的步幅总是 1。这是一个玩具示例。
self.encoder = nn.Sequential(
nn.Conv2d(32, 16, 3, stride=1, padding=1), # b, 16, 32, 32
nn.ReLU(True),
nn.MaxPool2d(2, stride=2), # b, 16, 16, 16
nn.Conv2d(16, 32, 3, stride=1, padding=1), # b, 32, 16, 16
nn.ReLU(True),
nn.MaxPool2d(2, stride=2) # b, 32, 8, 8
)
self.decoder = nn.Sequential(
nn.ConvTranspose2d(32, 16, 3, stride=2,padding=1,output_padding=1), # b, 16, 16, 16
nn.ReLU(True),
nn.ConvTranspose2d(16, 1, 3, stride=2, padding=1, output_padding=1), # b, 1, 32, 32
nn.Sigmoid()
)
我在pytorch中定义了我的自动编码器如下:
self.encoder = nn.Sequential(
nn.Conv2d(input_shape[0], 32, kernel_size=1, stride=1),
nn.ReLU(),
nn.Conv2d(32, 64, kernel_size=1, stride=1),
nn.ReLU(),
nn.Conv2d(64, 64, kernel_size=1, stride=1),
nn.ReLU()
)
self.decoder = nn.Sequential(
nn.Conv2d(64, 64, kernel_size=1, stride=1),
nn.ReLU(),
nn.Conv2d(64, 32, kernel_size=1, stride=1),
nn.ReLU(),
nn.Conv2d(32, input_shape[0], kernel_size=1, stride=1),
nn.ReLU(),
nn.Sigmoid()
)
我需要获得一个降维编码,这需要创建一个维数 N 远低于图像维数的新线性层,以便我可以提取激活。
如果有人可以帮助我在解码器部分安装线性层,我将不胜感激(我知道如何 Flatten() 数据,但我想我需要再次 "unflatten" 它以与Conv2d层)
更新:
我根据第一个答案得出了以下结论(它在编码器的输出端给了我一个 8 维瓶颈,工作正常 torch.Size([1, 8, 1, 1] )).
self.encoder = nn.Sequential(
nn.Conv2d(input_shape[0], 32, kernel_size=8, stride=4),
nn.ReLU(),
nn.Conv2d(32, 64, kernel_size=4, stride=2),
nn.ReLU(),
nn.Conv2d(64, 8, kernel_size=3, stride=1),
nn.ReLU(),
nn.MaxPool2d(7, stride=1)
)
self.decoder = nn.Sequential(
nn.ConvTranspose2d(8, 64, kernel_size=3, stride=1),
nn.ReLU(),
nn.Conv2d(64, 32, kernel_size=4, stride=2),
nn.ReLU(),
nn.Conv2d(32, input_shape[0], kernel_size=8, stride=4),
nn.ReLU(),
nn.Sigmoid()
)
我不能做的是用
训练自动编码器def forward(self, x):
x = self.encoder(x)
x = self.decoder(x)
return x
解码器报错:
Calculated padded input size per channel: (3 x 3). Kernel size: (4 x 4). Kernel size can't be greater than actual input size
谢谢第一个回答的人
在解码器部分,你需要上采样到更大的尺寸,这可以通过nn.ConvTranspose2d
来完成。我注意到在你的编码器部分,你似乎没有对你的特征图进行下采样,因为你的步幅总是 1。这是一个玩具示例。
self.encoder = nn.Sequential(
nn.Conv2d(32, 16, 3, stride=1, padding=1), # b, 16, 32, 32
nn.ReLU(True),
nn.MaxPool2d(2, stride=2), # b, 16, 16, 16
nn.Conv2d(16, 32, 3, stride=1, padding=1), # b, 32, 16, 16
nn.ReLU(True),
nn.MaxPool2d(2, stride=2) # b, 32, 8, 8
)
self.decoder = nn.Sequential(
nn.ConvTranspose2d(32, 16, 3, stride=2,padding=1,output_padding=1), # b, 16, 16, 16
nn.ReLU(True),
nn.ConvTranspose2d(16, 1, 3, stride=2, padding=1, output_padding=1), # b, 1, 32, 32
nn.Sigmoid()
)