Tensorflow 中的 LSTM 内核中的权重以什么顺序保存

Question

我查看了 Tensorflow 中 LSTMCell 的保存权重。它有一个大内核和偏置权重。

内核的维度是

(input_size + hidden_size)*(hidden_size*4)

现在据我了解，这是将 4 个输入封装到隐藏层仿射变换以及 4 个隐藏层到隐藏层变换。

所以应该有 4 个大小为

的矩阵

input_size*hidden_size

和 4 个大小

hidden_size*hidden_size

谁能告诉我或指出 TF 保存这些的代码，这样我就可以将内核矩阵分解成更小的矩阵。

Answer 1

在tensorflow 1.5中，LSTM变量在LSTMCell.build方法中定义。源代码可以在rnn_cell_impl.py:

中找到

self._kernel = self.add_variable(
    _WEIGHTS_VARIABLE_NAME,
    shape=[input_depth + h_depth, 4 * self._num_units],
    initializer=self._initializer,
    partitioner=maybe_partitioner)
self._bias = self.add_variable(
    _BIAS_VARIABLE_NAME,
    shape=[4 * self._num_units],
    initializer=init_ops.zeros_initializer(dtype=self.dtype))

如您所见，只有一个 [input_depth + h_depth, 4 * self._num_units] 变量，而不是 8 个不同的矩阵，并且它们全部在一个批次中同时相乘。

门是这样定义的：

i, j, f, o = array_ops.split(value=gate_inputs, num_or_size_splits=4, axis=one)

Answer 2

按照其他答案中提到的权重组合，但顺序是：其中 c 是上下文，h 是历史。

input_c,      input_h
new_input_c,  new_input_h
forget_c,     forget_h
output_c,     output_h

相关代码为here

if self._state_is_tuple:
  c, h = state
else:
  c, h = array_ops.split(value=state, num_or_size_splits=2, axis=one)

gate_inputs = math_ops.matmul(
    array_ops.concat([inputs, h], 1), self._kernel)
gate_inputs = nn_ops.bias_add(gate_inputs, self._bias)

# i = input_gate, j = new_input, f = forget_gate, o = output_gate
i, j, f, o = array_ops.split(
    value=gate_inputs, num_or_size_splits=4, axis=one)

Tensorflow 中的 LSTM 内核中的权重以什么顺序保存

In what order are weights saved in a LSTM kernel in Tensorflow

python

lstm

tensorflow

recurrent-neural-network