缩放 LSTM 权重有意义吗?

Does scaling LSTM weights makes sense?

我想将隐藏状态从多个 LSTM 网络转移到新网络。在将隐藏状态输入到新网络之前对其进行缩放或标准化是否有意义?

以这种方式破坏网络是很有可能的。看看下面的 LSTM 方程:

根据输入序列x,缩放WiWc可以使相应的biases占主导地位,这基本上会形成一个全新的网络。相同的输入序列 x 会导致不同的长期和短期状态,没有理由认为它们更好。同时缩放权重和偏置也很奇怪,因为它改变了整个线性层的比例。

如果您对权重正则化感兴趣,最好将其合并到原始网络中,而不是修补训练好的模型。