Tensorflow dynamic_rnn 传播批量大小大于 1 的 nans
Tensorflow dynamic_rnn propagates nans for batch size greater than 1
希望有人能帮助我理解我在 Tensorflow 中将 LSTM 与 dynamic_rnn 结合使用时遇到的问题。根据这个 MWE,当我的批处理大小为 1 且序列不完整时(我用 nan 填充短张量而不是零以突出显示)一切正常运行,短序列中的 nan 将按预期被忽略。 .
import tensorflow as tf
import numpy as np
batch_1 = np.random.randn(1, 10, 8)
batch_2 = np.random.randn(1, 10, 8)
batch_1[6:] = np.nan # lets make a short batch in batch 1 second sample of length 6 by padding with nans
seq_lengths_batch_1 = [6]
seq_lengths_batch_2 = [10]
tf.reset_default_graph()
input_vals = tf.placeholder(shape=[1, 10, 8], dtype=tf.float32)
lengths = tf.placeholder(shape=[1], dtype=tf.int32)
cell = tf.nn.rnn_cell.LSTMCell(num_units=5)
outputs, states = tf.nn.dynamic_rnn(cell=cell, dtype=tf.float32, sequence_length=lengths, inputs=input_vals)
last_relevant_value = states.h
fake_loss = tf.reduce_mean(last_relevant_value)
optimizer = tf.train.AdamOptimizer(learning_rate=0.001).minimize(fake_loss)
sess = tf.InteractiveSession()
sess.run(tf.global_variables_initializer())
_, fl, lrv = sess.run([optimizer, fake_loss, last_relevant_value], feed_dict={input_vals: batch_1, lengths: seq_lengths_batch_1})
print(fl, lrv)
_, fl, lrv = sess.run([optimizer, fake_loss, last_relevant_value], feed_dict={input_vals: batch_2, lengths: seq_lengths_batch_2})
print(fl, lrv)
sess.close()
输出正确填充的同类值....
0.00659429 [[ 0.11608966 0.08498846 -0.02892204 -0.01945034 -0.1197343 ]]
-0.080244 [[-0.03018401 -0.18946587 -0.19128899 -0.10388547 0.11360413]]
然而,当我将批量大小增加到 3 时,第一批正确执行,但不知何故第二批导致 nans 开始传播
import tensorflow as tf
import numpy as np
batch_1 = np.random.randn(3, 10, 8)
batch_2 = np.random.randn(3, 10, 8)
batch_1[1, 6:] = np.nan
batch_2[0, 8:] = np.nan
seq_lengths_batch_1 = [10, 6, 10]
seq_lengths_batch_2 = [8, 10, 10]
tf.reset_default_graph()
input_vals = tf.placeholder(shape=[3, 10, 8], dtype=tf.float32)
lengths = tf.placeholder(shape=[3], dtype=tf.int32)
cell = tf.nn.rnn_cell.LSTMCell(num_units=5)
outputs, states = tf.nn.dynamic_rnn(cell=cell, dtype=tf.float32, sequence_length=lengths, inputs=input_vals)
last_relevant_value = states.h
fake_loss = tf.reduce_mean(last_relevant_value)
optimizer = tf.train.AdamOptimizer(learning_rate=0.001).minimize(fake_loss)
sess = tf.InteractiveSession()
sess.run(tf.global_variables_initializer())
_, fl, lrv = sess.run([optimizer, fake_loss, last_relevant_value], feed_dict={input_vals: batch_1, lengths: seq_lengths_batch_1})
print(fl, lrv)
_, fl, lrv = sess.run([optimizer, fake_loss, last_relevant_value], feed_dict={input_vals: batch_2, lengths: seq_lengths_batch_2})
print(fl, lrv)
sess.close()
给予
0.0533635 [[ 0.33622459 -0.0284576 0.11914439 0.14402215 -0.20783389]
[ 0.20805927 0.17591488 -0.24977767 -0.03432769 0.2944448 ]
[-0.04508523 0.11878576 0.07287208 0.14114542 -0.24467923]]
nan [[ nan nan nan nan nan]
[ nan nan nan nan nan]
[ nan nan nan nan nan]]
我发现这种行为很奇怪,因为我预计序列长度之后的所有值都会被忽略,就像批量大小为 1 时发生的那样,但不适用于批量大小为 2 或更大的情况。
显然,如果我使用 0 作为我的填充值,nans 不会传播,但这并没有激发我对 dynamic_rnn 正在按我期望的方式运行的任何信心。
我还应该提到,如果我删除优化步骤,问题就不会发生,所以现在我很困惑,在尝试了许多不同的排列一天之后,我看不出为什么批量大小会在这里产生任何差异
我没有追踪到确切的操作,但我认为是这种情况。
为什么不忽略超出 sequence_length
的值? 它们在乘以 0
的意义上被忽略(它们被屏蔽掉了)在做一些操作的时候。从数学上讲,结果始终为零,因此它们应该没有任何影响。不幸的是,nan * 0 = nan
。因此,如果您在示例中给出 nan
值,它们就会传播。你可能想知道为什么 TensorFlow 不完全忽略它们,而只是屏蔽它们。原因是现代硬件的性能。对带有一堆零的大型规则形状进行操作比对几个小形状(从分解不规则形状得到)进行操作要容易得多。
为什么它只发生在第二批? 在第一批中,损失和最后的隐藏状态是使用原始变量值计算的。他们很好。因为您还在 sess.run()
中进行了优化器更新,变量会在第一次调用时更新并变为 nan
。在第二次调用中,来自变量的 nan
s 传播到损失和隐藏状态。
我如何确定超出 sequence_length
的值真的被屏蔽了? 我修改了您的示例以重现该问题,但也使其具有确定性。
import tensorflow as tf
import numpy as np
batch_1 = np.ones((3, 10, 2))
batch_1[1, 7:] = np.nan
seq_lengths_batch_1 = [10, 7, 10]
tf.reset_default_graph()
input_vals = tf.placeholder(shape=[3, 10, 2], dtype=tf.float32)
lengths = tf.placeholder(shape=[3], dtype=tf.int32)
cell = tf.nn.rnn_cell.LSTMCell(num_units=3, initializer=tf.constant_initializer(1.0))
init_state = tf.nn.rnn_cell.LSTMStateTuple(*[tf.ones([3, c]) for c in cell.state_size])
outputs, states = tf.nn.dynamic_rnn(cell=cell, dtype=tf.float32, sequence_length=lengths, inputs=input_vals,
initial_state=init_state)
last_relevant_value = states.h
fake_loss = tf.reduce_mean(last_relevant_value)
optimizer = tf.train.AdamOptimizer(learning_rate=0.1).minimize(fake_loss)
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
for _ in range(1):
_, fl, lrv = sess.run([optimizer, fake_loss, last_relevant_value],
feed_dict={input_vals: batch_1, lengths: seq_lengths_batch_1})
print "VARIABLES:", sess.run(tf.trainable_variables())
print "LOSS and LAST HIDDEN:", fl, lrv
如果您将 batch_1[1, 7:] = np.nan
中的 np.nan
替换为任意数字(例如尝试 -1M、1M、0),您会发现得到的值是相同的。您还可以 运行 循环进行更多迭代。作为进一步的完整性检查,如果您将 seq_lengths_batch_1
设置为 "wrong",例如[10, 8, 10],您可以看到现在您在 batch_1[1, 7:] = np.nan
中使用的值会影响输出。
希望有人能帮助我理解我在 Tensorflow 中将 LSTM 与 dynamic_rnn 结合使用时遇到的问题。根据这个 MWE,当我的批处理大小为 1 且序列不完整时(我用 nan 填充短张量而不是零以突出显示)一切正常运行,短序列中的 nan 将按预期被忽略。 .
import tensorflow as tf
import numpy as np
batch_1 = np.random.randn(1, 10, 8)
batch_2 = np.random.randn(1, 10, 8)
batch_1[6:] = np.nan # lets make a short batch in batch 1 second sample of length 6 by padding with nans
seq_lengths_batch_1 = [6]
seq_lengths_batch_2 = [10]
tf.reset_default_graph()
input_vals = tf.placeholder(shape=[1, 10, 8], dtype=tf.float32)
lengths = tf.placeholder(shape=[1], dtype=tf.int32)
cell = tf.nn.rnn_cell.LSTMCell(num_units=5)
outputs, states = tf.nn.dynamic_rnn(cell=cell, dtype=tf.float32, sequence_length=lengths, inputs=input_vals)
last_relevant_value = states.h
fake_loss = tf.reduce_mean(last_relevant_value)
optimizer = tf.train.AdamOptimizer(learning_rate=0.001).minimize(fake_loss)
sess = tf.InteractiveSession()
sess.run(tf.global_variables_initializer())
_, fl, lrv = sess.run([optimizer, fake_loss, last_relevant_value], feed_dict={input_vals: batch_1, lengths: seq_lengths_batch_1})
print(fl, lrv)
_, fl, lrv = sess.run([optimizer, fake_loss, last_relevant_value], feed_dict={input_vals: batch_2, lengths: seq_lengths_batch_2})
print(fl, lrv)
sess.close()
输出正确填充的同类值....
0.00659429 [[ 0.11608966 0.08498846 -0.02892204 -0.01945034 -0.1197343 ]]
-0.080244 [[-0.03018401 -0.18946587 -0.19128899 -0.10388547 0.11360413]]
然而,当我将批量大小增加到 3 时,第一批正确执行,但不知何故第二批导致 nans 开始传播
import tensorflow as tf
import numpy as np
batch_1 = np.random.randn(3, 10, 8)
batch_2 = np.random.randn(3, 10, 8)
batch_1[1, 6:] = np.nan
batch_2[0, 8:] = np.nan
seq_lengths_batch_1 = [10, 6, 10]
seq_lengths_batch_2 = [8, 10, 10]
tf.reset_default_graph()
input_vals = tf.placeholder(shape=[3, 10, 8], dtype=tf.float32)
lengths = tf.placeholder(shape=[3], dtype=tf.int32)
cell = tf.nn.rnn_cell.LSTMCell(num_units=5)
outputs, states = tf.nn.dynamic_rnn(cell=cell, dtype=tf.float32, sequence_length=lengths, inputs=input_vals)
last_relevant_value = states.h
fake_loss = tf.reduce_mean(last_relevant_value)
optimizer = tf.train.AdamOptimizer(learning_rate=0.001).minimize(fake_loss)
sess = tf.InteractiveSession()
sess.run(tf.global_variables_initializer())
_, fl, lrv = sess.run([optimizer, fake_loss, last_relevant_value], feed_dict={input_vals: batch_1, lengths: seq_lengths_batch_1})
print(fl, lrv)
_, fl, lrv = sess.run([optimizer, fake_loss, last_relevant_value], feed_dict={input_vals: batch_2, lengths: seq_lengths_batch_2})
print(fl, lrv)
sess.close()
给予
0.0533635 [[ 0.33622459 -0.0284576 0.11914439 0.14402215 -0.20783389]
[ 0.20805927 0.17591488 -0.24977767 -0.03432769 0.2944448 ]
[-0.04508523 0.11878576 0.07287208 0.14114542 -0.24467923]]
nan [[ nan nan nan nan nan]
[ nan nan nan nan nan]
[ nan nan nan nan nan]]
我发现这种行为很奇怪,因为我预计序列长度之后的所有值都会被忽略,就像批量大小为 1 时发生的那样,但不适用于批量大小为 2 或更大的情况。
显然,如果我使用 0 作为我的填充值,nans 不会传播,但这并没有激发我对 dynamic_rnn 正在按我期望的方式运行的任何信心。
我还应该提到,如果我删除优化步骤,问题就不会发生,所以现在我很困惑,在尝试了许多不同的排列一天之后,我看不出为什么批量大小会在这里产生任何差异
我没有追踪到确切的操作,但我认为是这种情况。
为什么不忽略超出 sequence_length
的值? 它们在乘以 0
的意义上被忽略(它们被屏蔽掉了)在做一些操作的时候。从数学上讲,结果始终为零,因此它们应该没有任何影响。不幸的是,nan * 0 = nan
。因此,如果您在示例中给出 nan
值,它们就会传播。你可能想知道为什么 TensorFlow 不完全忽略它们,而只是屏蔽它们。原因是现代硬件的性能。对带有一堆零的大型规则形状进行操作比对几个小形状(从分解不规则形状得到)进行操作要容易得多。
为什么它只发生在第二批? 在第一批中,损失和最后的隐藏状态是使用原始变量值计算的。他们很好。因为您还在 sess.run()
中进行了优化器更新,变量会在第一次调用时更新并变为 nan
。在第二次调用中,来自变量的 nan
s 传播到损失和隐藏状态。
我如何确定超出 sequence_length
的值真的被屏蔽了? 我修改了您的示例以重现该问题,但也使其具有确定性。
import tensorflow as tf
import numpy as np
batch_1 = np.ones((3, 10, 2))
batch_1[1, 7:] = np.nan
seq_lengths_batch_1 = [10, 7, 10]
tf.reset_default_graph()
input_vals = tf.placeholder(shape=[3, 10, 2], dtype=tf.float32)
lengths = tf.placeholder(shape=[3], dtype=tf.int32)
cell = tf.nn.rnn_cell.LSTMCell(num_units=3, initializer=tf.constant_initializer(1.0))
init_state = tf.nn.rnn_cell.LSTMStateTuple(*[tf.ones([3, c]) for c in cell.state_size])
outputs, states = tf.nn.dynamic_rnn(cell=cell, dtype=tf.float32, sequence_length=lengths, inputs=input_vals,
initial_state=init_state)
last_relevant_value = states.h
fake_loss = tf.reduce_mean(last_relevant_value)
optimizer = tf.train.AdamOptimizer(learning_rate=0.1).minimize(fake_loss)
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
for _ in range(1):
_, fl, lrv = sess.run([optimizer, fake_loss, last_relevant_value],
feed_dict={input_vals: batch_1, lengths: seq_lengths_batch_1})
print "VARIABLES:", sess.run(tf.trainable_variables())
print "LOSS and LAST HIDDEN:", fl, lrv
如果您将 batch_1[1, 7:] = np.nan
中的 np.nan
替换为任意数字(例如尝试 -1M、1M、0),您会发现得到的值是相同的。您还可以 运行 循环进行更多迭代。作为进一步的完整性检查,如果您将 seq_lengths_batch_1
设置为 "wrong",例如[10, 8, 10],您可以看到现在您在 batch_1[1, 7:] = np.nan
中使用的值会影响输出。