Tensorflow的RNN减速现象
RNN Slow-down phenomenon of Tensorflow
我发现了一个奇特的属性张量流的lstm单元(不限于lstm,但我只用这个检查过)据我所知还没有报道过。
我不知道它是否真的有,所以我把这个 post 留在了 SO 中。下面是这个问题的玩具代码:
import tensorflow as tf
import numpy as np
import time
def network(input_list):
input,init_hidden_c,init_hidden_m = input_list
cell = tf.nn.rnn_cell.BasicLSTMCell(256, state_is_tuple=True)
init_hidden = tf.nn.rnn_cell.LSTMStateTuple(init_hidden_c, init_hidden_m)
states, hidden_cm = tf.nn.dynamic_rnn(cell, input, dtype=tf.float32, initial_state=init_hidden)
net = [v for v in tf.trainable_variables()]
return states, hidden_cm, net
def action(x, h_c, h_m):
t0 = time.time()
outputs, output_h = sess.run([rnn_states[:,-1:,:], rnn_hidden_cm], feed_dict={
rnn_input:x,
rnn_init_hidden_c: h_c,
rnn_init_hidden_m: h_m
})
dt = time.time() - t0
return outputs, output_h, dt
rnn_input = tf.placeholder("float", [None, None, 512])
rnn_init_hidden_c = tf.placeholder("float", [None,256])
rnn_init_hidden_m = tf.placeholder("float", [None,256])
rnn_input_list = [rnn_input, rnn_init_hidden_c, rnn_init_hidden_m]
rnn_states, rnn_hidden_cm, rnn_net = network(rnn_input_list)
feed_input = np.random.uniform(low=-1.,high=1.,size=(1,1,512))
feed_init_hidden_c = np.zeros(shape=(1,256))
feed_init_hidden_m = np.zeros(shape=(1,256))
sess = tf.Session()
sess.run(tf.global_variables_initializer())
for i in range(10000):
_, output_hidden_cm, deltat = action(feed_input, feed_init_hidden_c, feed_init_hidden_m)
if i % 10 == 0:
print 'Running time: ' + str(deltat)
(feed_init_hidden_c, feed_init_hidden_m) = output_hidden_cm
feed_input = np.random.uniform(low=-1.,high=1.,size=(1,1,512))
[不重要]此代码的作用是从包含 LSTM 的 'network()' 函数生成输出,其中输入的时间维度为 1,因此输出也为 1,并为每个步骤拉入和拉出初始状态运行.
[重要] 查看 'sess.run()' 部分。由于某些原因,在我的真实代码中,我碰巧将 [:,-1:,:] 用于 'rnn_states'。然后发生的事情是 每个 'sess.run()' 花费的时间增加 。对于我自己的一些检查,我发现这种减速源于 [:,-1:,:]。我只想获得最后一步的输出。如果您执行 'outputs, output_h = sess.run([rnn_states, rnn_hidden_cm], feed_dict{~' w/o [:,-1:,:] 并在 'sess.run()' 之后执行 'last_output = outputs[:,-1:,:]',则不会发生减速。
我不知道为什么这种时间的指数增长会随着 [:,-1:,:] 运行 发生。这是张量流的性质没有被记录但特别慢(可能会自己添加更多图形吗?)?
谢谢,希望其他用户不会因为这个 post.
而发生这个错误
如上所述,对于 'sess.run()' 没有切片输出非常感谢这种情况。
def action(x, h_c, h_m):
t0 = time.time()
outputs, output_h = sess.run([rnn_states, rnn_hidden_cm], feed_dict={
rnn_input:x,
rnn_init_hidden_c: h_c,
rnn_init_hidden_m: h_m
})
outputs = outputs[:,-1:,:]
dt = time.time() - t0
return outputs, output_h, dt
我遇到了同样的问题,TensorFlow 每次迭代都会减慢我 运行 它,并在尝试调试时发现了这个问题。这是我的情况的简短描述以及我如何解决它以供将来参考。希望它能为某人指明正确的方向并节省他们一些时间。
在我的例子中,问题主要是我在执行 sess.run()
时没有使用 feed_dict
来提供网络状态。相反,我在每次迭代时都重新声明了 outputs
、final_state
和 prediction
。 https://github.com/tensorflow/tensorflow/issues/1439#issuecomment-194405649 的答案让我意识到那是多么愚蠢......我在每次迭代中不断创建新的图形节点,使它变得越来越慢。有问题的代码看起来像这样:
# defining the network
lstm_layer = rnn.BasicLSTMCell(num_units, forget_bias=1)
outputs, final_state = rnn.static_rnn(lstm_layer, input, initial_state=rnn_state, dtype='float32')
prediction = tf.nn.softmax(tf.matmul(outputs[-1], out_weights)+out_bias)
for input_data in data_seq:
# redeclaring, stupid stupid...
outputs, final_state = rnn.static_rnn(lstm_layer, input, initial_state=rnn_state, dtype='float32')
prediction = tf.nn.softmax(tf.matmul(outputs[-1], out_weights)+out_bias)
p, rnn_state = sess.run((prediction, final_state), feed_dict={x: input_data})
解决方案当然是一开始只声明一次节点,并用 feed_dict
提供新数据。代码从慢一半(开始时 > 15 毫秒)到每次迭代都变慢,到每次迭代在大约 1 毫秒内执行。我的新代码看起来像这样:
out_weights = tf.Variable(tf.random_normal([num_units, n_classes]), name="out_weights")
out_bias = tf.Variable(tf.random_normal([n_classes]), name="out_bias")
# placeholder for the network state
state_placeholder = tf.placeholder(tf.float32, [2, 1, num_units])
rnn_state = tf.nn.rnn_cell.LSTMStateTuple(state_placeholder[0], state_placeholder[1])
x = tf.placeholder('float', [None, 1, n_input])
input = tf.unstack(x, 1, 1)
# defining the network
lstm_layer = rnn.BasicLSTMCell(num_units, forget_bias=1)
outputs, final_state = rnn.static_rnn(lstm_layer, input, initial_state=rnn_state, dtype='float32')
prediction = tf.nn.softmax(tf.matmul(outputs[-1], out_weights)+out_bias)
# actual network state, which we input with feed_dict
_rnn_state = tf.nn.rnn_cell.LSTMStateTuple(np.zeros((1, num_units), dtype='float32'), np.zeros((1, num_units), dtype='float32'))
it = 0
for input_data in data_seq:
encl_input = [[input_data]]
p, _rnn_state = sess.run((prediction, final_state), feed_dict={x: encl_input, rnn_state: _rnn_state})
print("{} - {}".format(it, p))
it += 1
将声明从 for 循环中移出也解决了 OP sdr2002 存在的问题,在 for 循环内的 sess.run()
中执行切片 outputs[-1]
。
我发现了一个奇特的属性张量流的lstm单元(不限于lstm,但我只用这个检查过)据我所知还没有报道过。 我不知道它是否真的有,所以我把这个 post 留在了 SO 中。下面是这个问题的玩具代码:
import tensorflow as tf
import numpy as np
import time
def network(input_list):
input,init_hidden_c,init_hidden_m = input_list
cell = tf.nn.rnn_cell.BasicLSTMCell(256, state_is_tuple=True)
init_hidden = tf.nn.rnn_cell.LSTMStateTuple(init_hidden_c, init_hidden_m)
states, hidden_cm = tf.nn.dynamic_rnn(cell, input, dtype=tf.float32, initial_state=init_hidden)
net = [v for v in tf.trainable_variables()]
return states, hidden_cm, net
def action(x, h_c, h_m):
t0 = time.time()
outputs, output_h = sess.run([rnn_states[:,-1:,:], rnn_hidden_cm], feed_dict={
rnn_input:x,
rnn_init_hidden_c: h_c,
rnn_init_hidden_m: h_m
})
dt = time.time() - t0
return outputs, output_h, dt
rnn_input = tf.placeholder("float", [None, None, 512])
rnn_init_hidden_c = tf.placeholder("float", [None,256])
rnn_init_hidden_m = tf.placeholder("float", [None,256])
rnn_input_list = [rnn_input, rnn_init_hidden_c, rnn_init_hidden_m]
rnn_states, rnn_hidden_cm, rnn_net = network(rnn_input_list)
feed_input = np.random.uniform(low=-1.,high=1.,size=(1,1,512))
feed_init_hidden_c = np.zeros(shape=(1,256))
feed_init_hidden_m = np.zeros(shape=(1,256))
sess = tf.Session()
sess.run(tf.global_variables_initializer())
for i in range(10000):
_, output_hidden_cm, deltat = action(feed_input, feed_init_hidden_c, feed_init_hidden_m)
if i % 10 == 0:
print 'Running time: ' + str(deltat)
(feed_init_hidden_c, feed_init_hidden_m) = output_hidden_cm
feed_input = np.random.uniform(low=-1.,high=1.,size=(1,1,512))
[不重要]此代码的作用是从包含 LSTM 的 'network()' 函数生成输出,其中输入的时间维度为 1,因此输出也为 1,并为每个步骤拉入和拉出初始状态运行.
[重要] 查看 'sess.run()' 部分。由于某些原因,在我的真实代码中,我碰巧将 [:,-1:,:] 用于 'rnn_states'。然后发生的事情是 每个 'sess.run()' 花费的时间增加 。对于我自己的一些检查,我发现这种减速源于 [:,-1:,:]。我只想获得最后一步的输出。如果您执行 'outputs, output_h = sess.run([rnn_states, rnn_hidden_cm], feed_dict{~' w/o [:,-1:,:] 并在 'sess.run()' 之后执行 'last_output = outputs[:,-1:,:]',则不会发生减速。
我不知道为什么这种时间的指数增长会随着 [:,-1:,:] 运行 发生。这是张量流的性质没有被记录但特别慢(可能会自己添加更多图形吗?)? 谢谢,希望其他用户不会因为这个 post.
而发生这个错误如上所述,对于 'sess.run()' 没有切片输出非常感谢这种情况。
def action(x, h_c, h_m):
t0 = time.time()
outputs, output_h = sess.run([rnn_states, rnn_hidden_cm], feed_dict={
rnn_input:x,
rnn_init_hidden_c: h_c,
rnn_init_hidden_m: h_m
})
outputs = outputs[:,-1:,:]
dt = time.time() - t0
return outputs, output_h, dt
我遇到了同样的问题,TensorFlow 每次迭代都会减慢我 运行 它,并在尝试调试时发现了这个问题。这是我的情况的简短描述以及我如何解决它以供将来参考。希望它能为某人指明正确的方向并节省他们一些时间。
在我的例子中,问题主要是我在执行 sess.run()
时没有使用 feed_dict
来提供网络状态。相反,我在每次迭代时都重新声明了 outputs
、final_state
和 prediction
。 https://github.com/tensorflow/tensorflow/issues/1439#issuecomment-194405649 的答案让我意识到那是多么愚蠢......我在每次迭代中不断创建新的图形节点,使它变得越来越慢。有问题的代码看起来像这样:
# defining the network
lstm_layer = rnn.BasicLSTMCell(num_units, forget_bias=1)
outputs, final_state = rnn.static_rnn(lstm_layer, input, initial_state=rnn_state, dtype='float32')
prediction = tf.nn.softmax(tf.matmul(outputs[-1], out_weights)+out_bias)
for input_data in data_seq:
# redeclaring, stupid stupid...
outputs, final_state = rnn.static_rnn(lstm_layer, input, initial_state=rnn_state, dtype='float32')
prediction = tf.nn.softmax(tf.matmul(outputs[-1], out_weights)+out_bias)
p, rnn_state = sess.run((prediction, final_state), feed_dict={x: input_data})
解决方案当然是一开始只声明一次节点,并用 feed_dict
提供新数据。代码从慢一半(开始时 > 15 毫秒)到每次迭代都变慢,到每次迭代在大约 1 毫秒内执行。我的新代码看起来像这样:
out_weights = tf.Variable(tf.random_normal([num_units, n_classes]), name="out_weights")
out_bias = tf.Variable(tf.random_normal([n_classes]), name="out_bias")
# placeholder for the network state
state_placeholder = tf.placeholder(tf.float32, [2, 1, num_units])
rnn_state = tf.nn.rnn_cell.LSTMStateTuple(state_placeholder[0], state_placeholder[1])
x = tf.placeholder('float', [None, 1, n_input])
input = tf.unstack(x, 1, 1)
# defining the network
lstm_layer = rnn.BasicLSTMCell(num_units, forget_bias=1)
outputs, final_state = rnn.static_rnn(lstm_layer, input, initial_state=rnn_state, dtype='float32')
prediction = tf.nn.softmax(tf.matmul(outputs[-1], out_weights)+out_bias)
# actual network state, which we input with feed_dict
_rnn_state = tf.nn.rnn_cell.LSTMStateTuple(np.zeros((1, num_units), dtype='float32'), np.zeros((1, num_units), dtype='float32'))
it = 0
for input_data in data_seq:
encl_input = [[input_data]]
p, _rnn_state = sess.run((prediction, final_state), feed_dict={x: encl_input, rnn_state: _rnn_state})
print("{} - {}".format(it, p))
it += 1
将声明从 for 循环中移出也解决了 OP sdr2002 存在的问题,在 for 循环内的 sess.run()
中执行切片 outputs[-1]
。