使用 word2vec 作为 tensorflow 输入的 LSTM 的可变句子长度

Question

我正在构建一个使用 word2vec 作为输入的 LSTM 模型。我正在使用张量流框架。我已经完成了词嵌入部分，但是我被 LSTM 部分卡住了。

这里的问题是我有不同的句子长度，这意味着我必须进行填充或使用具有指定序列长度的 dynamic_rnn。我正在为他们两个而苦苦挣扎。

填充。填充的令人困惑的部分是我何时进行填充。我的模型是这样的

word_matrix=model.wv.syn0
X = tf.placeholder(tf.int32, 形状)
数据 = tf.placeholder(tf.float32, 形状)
数据 = tf.nn.embedding_lookup(word_matrix, X)

然后，我将 word_matrix 的单词索引序列输入 X。我担心如果我将零填充到输入 X 的序列中，那么我会错误地继续输入不必要的输入 (word_matrix[0] 在这种情况下）。

所以，我想知道填充0的正确方法是什么。如果你告诉我如何用tensorflow实现它就太好了。

dynamic_rnn 为此，我声明了一个包含所有句子长度的列表，并在末尾提供 X 和 y。在这种情况下，我无法批量输入输入。然后，我遇到了这个错误（ValueError: as_list() is not defined on an unknown TensorShape.），在我看来 sequence_length 参数只接受列表？（虽然我的想法可能完全不正确）。

以下是我的代码。

X = tf.placeholder(tf.int32)
labels = tf.placeholder(tf.int32, [None, numClasses])
length = tf.placeholder(tf.int32)

data = tf.placeholder(tf.float32, [None, None, numDimensions])
data = tf.nn.embedding_lookup(word_matrix, X)

lstmCell = tf.contrib.rnn.BasicLSTMCell(lstmUnits, state_is_tuple=True)
lstmCell = tf.contrib.rnn.DropoutWrapper(cell=lstmCell, output_keep_prob=0.25)
initial_state=lstmCell.zero_state(batchSize, tf.float32)
value, _ = tf.nn.dynamic_rnn(lstmCell, data, sequence_length=length,
                             initial_state=initial_state, dtype=tf.float32)

我在这部分很费劲，所以非常感谢任何帮助。

提前致谢。

Answer 1

Tensorflow 不支持变长 Tensor。所以当你声明一个张量时，list/numpy数组应该有一个统一的形状。

从你的第一部分，我的理解是你已经能够在序列长度的最后一个时间步长中填充零。理想情况应该是这样。这是它应该如何寻找批量大小为 4、max 序列长度为 10 和 50 个隐藏单元 ->

[4,10,50] 将是整个批次的大小，但在内部，当您尝试可视化填充时，它的形状可能是这样的 ->
```
`[[5+5pad,50],[10,50],[8+2pad,50],[9+1pad,50]`
```
每个 pad 代表一个序列长度为 1，隐藏状态大小为 50 张量。除了零之外什么都没有。查看 and 以了解有关如何手动填充的更多信息。
您将使用动态 rnn 的确切原因是您不想在填充序列上计算它。 tf.nn.dynamic_rnn api 将确保通过传递 sequence_length 参数。

对于上面的示例，该参数将为：[5,10,8,9] 对于上面的示例。您可以通过对每个批次组件的非零实体求和来计算它。一个简单的计算方法是：
```
data_mask = tf.cast(data, tf.bool)
data_len = tf.reduce_sum(tf.cast(data_mask, tf.int32), axis=1)
```
并将其传递到 tf.nn.dynamic_rnn api:
```
tf.nn.dynamic_rnn(lstmCell, data, sequence_length=data_len, initial_state=initial_state)
```

使用 word2vec 作为 tensorflow 输入的 LSTM 的可变句子长度

Variable sentence length for LSTM using word2vec as inputs on tensorflow

python

word2vec

lstm

tensorflow