张量流 RNN 的动态张量形状
Dynamic tensor shape for tensorflow RNN
我正在尝试一个非常简单的 tensorflow RNN 示例。
在那个例子中,我使用动态 rnn。代码如下:
data = tf.placeholder(tf.float32, [None, 10,1]) #Number of examples, number of input, dimension of each input
target = tf.placeholder(tf.float32, [None, 11])
num_hidden = 24
cell = tf.nn.rnn_cell.LSTMCell(num_hidden,state_is_tuple=True)
val, _ = tf.nn.dynamic_rnn(cell, data, dtype=tf.float32)
val = tf.transpose(val, [1, 0, 2])
last = tf.gather(val, int(val.get_shape()[0]) - 1)
weight = tf.Variable(tf.truncated_normal([num_hidden, int(target.get_shape()[1])]))
bias = tf.Variable(tf.constant(0.1, shape=[target.get_shape()[1]]))
prediction = tf.nn.softmax(tf.matmul(last, weight) + bias)
cross_entropy = -tf.reduce_sum(target * tf.log(tf.clip_by_value(prediction,1e-10,1.0)))
optimizer = tf.train.AdamOptimizer()
minimize = optimizer.minimize(cross_entropy)
mistakes = tf.not_equal(tf.argmax(target, 1), tf.argmax(prediction, 1))
error = tf.reduce_mean(tf.cast(mistakes, tf.float32))
其实代码就是取自这个tutorial。
这个 RNN 网络的输入是一个二进制数序列。每个数字都放入一个数组中。例如,序列的格式为:
[[1],[0],[0],[1],[1],[0],[1],[1],[1],[0]]
输入的形状是[None,10,1],分别是batch size,sequence size和embedding size。现在因为动态 rnn 可以接受可变输入形状,所以我将代码更改如下:
data = tf.placeholder(tf.float32, [None, None,1])
基本上,我想使用可变长度序列(当然同一批次中所有序列的长度相同,但批次之间不同)。但是,它会抛出错误:
Traceback (most recent call last):
File "rnn-lstm-variable-length.py", line 48, in <module>
last = tf.gather(val, int(val.get_shape()[0]) - 1)
TypeError: __int__ returned non-int (type NoneType)
我了解到二次元是None
,不能在get_shape()[0]
中使用。但是,我相信一定有办法克服这个问题,因为 RNN 通常接受可变长度的输入。
我该怎么做?
tl;dr:尝试使用 tf.batch(..., dynamic_pad=True)
对数据进行批处理。
@chris_anderson的评论是正确的。最终,您的网络需要一个密集的数字矩阵才能使用,并且有几种策略可以将可变长度数据转换为超矩形:
- 将所有批次填充到固定大小(例如,假设每个输入的最大长度为 500 个项目,并且每个批次中的每个项目都填充到 500 个)。这个策略没有任何动态。
- 将每批次的填充应用于批次中最长项目的长度(动态填充)。
- 根据长度对您的输入进行分桶,并按批次应用填充。这与 #2 相同,但总体填充较少。
您也可以使用 other strategies。
要执行此批处理,您使用:
tf.train.batch
- 默认不填充,需要自己实现。
tf.train.batch(..., dynamic_pad=True)
tf.contrib.training.bucket_by_sequence_length
我怀疑您也对 tf.nn.dynamic_rnn
的使用感到困惑。请务必注意 dynamic_rnn
中的 dynamic
指的是 TensorFlow 展开网络循环部分的方式。在 tf.nn.rnn
中,递归是在图中静态完成的(没有内部循环,它在图构建时展开)。然而,在 dynamic_rnn
中,TensorFlow 使用 tf.while_loop
在 运行 时间在图中迭代。要使用动态填充,您需要使用动态展开,但它不会自动执行。
tf.gather
需要一个张量,因此您可以使用 tf.shape(val)
获得张量,在 运行 时间计算,形状为 val
- 例如tf.gather(val, tf.shape(val)[0] - 1)
我正在尝试一个非常简单的 tensorflow RNN 示例。 在那个例子中,我使用动态 rnn。代码如下:
data = tf.placeholder(tf.float32, [None, 10,1]) #Number of examples, number of input, dimension of each input
target = tf.placeholder(tf.float32, [None, 11])
num_hidden = 24
cell = tf.nn.rnn_cell.LSTMCell(num_hidden,state_is_tuple=True)
val, _ = tf.nn.dynamic_rnn(cell, data, dtype=tf.float32)
val = tf.transpose(val, [1, 0, 2])
last = tf.gather(val, int(val.get_shape()[0]) - 1)
weight = tf.Variable(tf.truncated_normal([num_hidden, int(target.get_shape()[1])]))
bias = tf.Variable(tf.constant(0.1, shape=[target.get_shape()[1]]))
prediction = tf.nn.softmax(tf.matmul(last, weight) + bias)
cross_entropy = -tf.reduce_sum(target * tf.log(tf.clip_by_value(prediction,1e-10,1.0)))
optimizer = tf.train.AdamOptimizer()
minimize = optimizer.minimize(cross_entropy)
mistakes = tf.not_equal(tf.argmax(target, 1), tf.argmax(prediction, 1))
error = tf.reduce_mean(tf.cast(mistakes, tf.float32))
其实代码就是取自这个tutorial。
这个 RNN 网络的输入是一个二进制数序列。每个数字都放入一个数组中。例如,序列的格式为:
[[1],[0],[0],[1],[1],[0],[1],[1],[1],[0]]
输入的形状是[None,10,1],分别是batch size,sequence size和embedding size。现在因为动态 rnn 可以接受可变输入形状,所以我将代码更改如下:
data = tf.placeholder(tf.float32, [None, None,1])
基本上,我想使用可变长度序列(当然同一批次中所有序列的长度相同,但批次之间不同)。但是,它会抛出错误:
Traceback (most recent call last):
File "rnn-lstm-variable-length.py", line 48, in <module>
last = tf.gather(val, int(val.get_shape()[0]) - 1)
TypeError: __int__ returned non-int (type NoneType)
我了解到二次元是None
,不能在get_shape()[0]
中使用。但是,我相信一定有办法克服这个问题,因为 RNN 通常接受可变长度的输入。
我该怎么做?
tl;dr:尝试使用 tf.batch(..., dynamic_pad=True)
对数据进行批处理。
@chris_anderson的评论是正确的。最终,您的网络需要一个密集的数字矩阵才能使用,并且有几种策略可以将可变长度数据转换为超矩形:
- 将所有批次填充到固定大小(例如,假设每个输入的最大长度为 500 个项目,并且每个批次中的每个项目都填充到 500 个)。这个策略没有任何动态。
- 将每批次的填充应用于批次中最长项目的长度(动态填充)。
- 根据长度对您的输入进行分桶,并按批次应用填充。这与 #2 相同,但总体填充较少。
您也可以使用 other strategies。
要执行此批处理,您使用:
tf.train.batch
- 默认不填充,需要自己实现。tf.train.batch(..., dynamic_pad=True)
tf.contrib.training.bucket_by_sequence_length
我怀疑您也对 tf.nn.dynamic_rnn
的使用感到困惑。请务必注意 dynamic_rnn
中的 dynamic
指的是 TensorFlow 展开网络循环部分的方式。在 tf.nn.rnn
中,递归是在图中静态完成的(没有内部循环,它在图构建时展开)。然而,在 dynamic_rnn
中,TensorFlow 使用 tf.while_loop
在 运行 时间在图中迭代。要使用动态填充,您需要使用动态展开,但它不会自动执行。
tf.gather
需要一个张量,因此您可以使用 tf.shape(val)
获得张量,在 运行 时间计算,形状为 val
- 例如tf.gather(val, tf.shape(val)[0] - 1)