具有不同缩放参数的火炬优化器

Torch optimisers with different scaled parameters

我正在尝试使用 Torch 优化器优化参数值,但参数的规模大相径庭。即,一个参数的值以千为单位,而其他参数的值在 0 到 1 之间。例如,在这个虚构的案例中,有两个参数——一个的最佳值为 0.1,另一个的最佳值为 20。我该如何修改它代码,以便它对每个参数应用合理的学习率,比如 1e-3 和 0.1?

import torch as pt
# Objective function
def f(x, y):
    return (10 - 100 * x) ** 2 + (y - 20) ** 2 
# Optimal parameters
print("Optimal value:", f(0.1, 20))
# Initial parameters
hp = pt.Tensor([1, 10])
print("Initial value", f(*hp))
# Optimiser
hp.requires_grad = True
optimizer = pt.optim.Adam([hp])
n = 5
for i in range(n):
    optimizer.zero_grad()
    loss = f(*hp)
    loss.backward()
    optimizer.step()
hp.requires_grad = False
print("Final parameters:", hp)
print("Final value:", f(*hp))

torch.optim.Optimizer class 接受 params 参数中的字典列表作为参数组。在每个字典中,您需要定义 params 和用于此参数组的其他参数。如果您没有在字典中提供特定参数,将使用传递给 Optimizer 的原始参数。有关详细信息,请参阅 official documentation

这是更新后的代码:

import torch as pt


# Objective function
def f(x, y):
    return (10 - 100 * x) ** 2 + (y - 20) ** 2


# Optimal parameters
print("Optimal value:", f(0.1, 20))
# Initial parameters
hp = pt.Tensor([1]), pt.Tensor([10])
print("Initial value", f(*hp))
# Optimiser
for param in hp:
    param.requires_grad = True
# eps and betas are shared between the two groups

optimizer = pt.optim.Adam([{"params": [hp[0]], "lr": 1e-3}, {"params": [hp[1]], "lr": 0.1}])
# optimizer = pt.optim.Adam([{"params": [hp[0]], "lr": 1}, {"params": [hp[1]], "lr": 2.2}])

n = 5
for i in range(n):
    optimizer.zero_grad()
    loss = f(*hp)
    loss.backward()
    optimizer.step()
for param in hp:
    param.requires_grad = False
print("Final parameters:", hp)
print("Final value:", f(*hp))

尝试分别对第一个和第二个参数使用 {"lr": 1}{"lr": 2.2}。这将导致最终值为 19.9713。